为 什么 要 写本 书 ? 
Python 是 什么 ? 


Python 是 一 种 带 有 动态 语义 的 、 解 释 性 的 、 面 向 对 象 的 高 级 编程 语言 。 其 高 级 内 置 数据 结构 ， 结 合 动态 类 型 和 动态 绑 定 ， 使 其 对 于 敏捷 软件 开发 非常 具有 吸引 力 。 同 时 ，Python 作 为 脚本 型 (胶水 ) 
语言 连接 现 有 的 组 件 也 十 分 高 效 。Python 语 法 简洁 ， 可 读 性 强 ， 从 而 能 降低 程序 的 维护 成 本 。 不 仅 如 此 ，Python 支 持 模块 和 包 ， 鼓 励 程序 模块 化 和 代码 重用 。 


Python 语言 的 解释 性 使 其 语法 更 接近 人 类 的 表达 和 思维 过 程 ， 开 发 程序 的 效率 极 高 。 习 惯 使 用 Python 者 ， 总 习惯 在 介绍 Python 时 强调 一 句 话 : “人 生 昔 短 ， 我 用 Python。” 由 于 没有 编译 步骤 ，“ 写 
代码 一 测试 一 调试 ”的 流程 能 被 快速 地 反复 执行 。 


作为 一 款 用 途 广泛 的 语言 ，Python 在 数据 分 析 与 机 器 学 习 领 域 的 表现 ， 称 得 上 “一 任 群芳 妨 ”。2016 年 3 月 ， 国 外 知名 技术 问答 社区 StackOverflow 发 布 了 《2016 年 开发 者 调查 报告 》。 此 调查 号 称 是 
有 史 以 来 最 为 全 面 的 开发 者 调查 。 其 中 ， 数 据 科学 家 的 十 大 技术 栈 中 ， 有 7 个 包含 Python。 具 体 来 说 ， 数 据 科 学 家 中 有 63% 正 在 使 用 Python，44% 正 在 使 用 R 语 言 。 而 且 ，27% 的 人 同时 使 用 这 两 种 语言 。 
Python 还 在 “最 多 人 使 用 的 技术 ” “最 受 欢迎 技术 ” “需求 度 最 高 技术 ”等 榜 单 中 名 列 前 十 。 


python 的 明显 优势 : 


Python 作为 一 款 优 雅 、 简 洁 的 开源 编程 语言 ， 吸 引 了 世界 各 地 顶尖 的 编程 爱好 者 的 注意 力 。 每 天 都 有 数量 众多 的 开源 项 目 更 新 自己 的 功能 ， 作 为 第 三 方 模块 为 其 他 开发 者 提供 更 加 高 效 、 便 利 的 支 
持 。 


: Python 提供 了 丰富 的 API 和 工具 ， 以 便 程 序 员 能 够 轻松 地 使 用 C、C++、Cython 来 编写 扩充 模块 ， 从 而 集成 多 种 语言 的 代码 ， 协 同 工 作 。 一 些 莫 法 在 底层 用 C 实 现 后 ， 封 装 在 Python 模块 中 ， 性 能 非常 高 


. Python 受到 世界 各 地 开发 者 的 一 致 喜爱 ， 在 世界 范围 内 被 广泛 使 用 。 这 意味 着 读者 可 以 通过 查看 代码 范例 ， 快 速 学 习 和 掌握 相关 内 容 。 
. Python 语言 简单 易学 ， 语 法 清晰 。Python 开 发 者 的 哲学 是 “用 一 种 方法 ， 最 好 是 只 有 一 种 方法 来 做 一 件 事 ”。 通 常 ， 相 较 其 他 语言 ，Python 的 源 代 码 被 认为 具有 更 好 的 可 读 性 。 
2004 年 ，Python 已 在 Google 内 部 使 用 ， 他 们 的 宗旨 是 : Python where we can，C++where we must， 即 在 操控 硬件 的 场合 使 用 C+ + ， 在 快速 开发 时 使 用 Python。 


总 的 来 说 ，Python 是 一 款 用 于 数据 统计 、 分 析 、 可 视 化 等 任务 ， 以 及 机 器 学 习 、 人 工 智能 等 领域 的 高 效 开 发 语言 。 它 能 满足 几乎 所 有 数据 挖掘 下 所 需 的 数据 处 理 、 统 计 模 型 和 图 表 绘 制 等 功能 需求 。 大 
量 的 第 三 方 模块 所 支持 的 内 容 沽 盖 了 从 统计 计算 到 机 器 学 习 ， 从 金融 分 析 到 生物 信息 ， 从 社会 网 络 分 析 到 自然 语言 处 理 ， 从 各 种 数据 库 各 种 语言 接口 到 高 性 能 计算 模型 等 领域 。 随 着 大 数据 时 代 的 来 临 ， 数 
据 挖 掘 将 更 加 广泛 地 渗透 到 各 行 各 业 中 去 ， 而 Python 作为 数据 挖掘 里 的 热门 工具 ， 将 会 有 更 多 不 同行 业 的 人 加 入 到 Python 爱好 者 的 行列 中 来 。 完 全 面向 对 象 的 Python 的 教学 工作 也 将 成 为 高 校 中 数学 与 统 
计 学 专业 的 重点 发 展 对 象 ， 这 是 大 数据 时 代 下 的 必然 趋势 。 


本 书 特 色 


笔者 从 实际 应 用 出 发 ， 结 合 实际 例子 及 应 用 场景 ， 深 入 浅 出 地 介绍 Python 开发 环境 的 搭建 、Python 基 础 入 门 、 函 数 、 面 向 对 象 编程 、 实 用 模块 和 图 表 绘 制 及 常用 的 建 模 算法 在 Python 中 的 实现 方式 。 
本 书 的 编排 以 Python 语言 的 函数 应 用 为 主 ， 先 介绍 了 函数 的 应 用 场景 及 使 用 格式 ， 再 给 出 函数 的 实际 使 用 示例 ， 最 后 对 函数 的 运行 结果 做 出 了 解释 ， 将 掌握 函数 应 用 的 所 需 知识 点 按照 实际 使 用 的 流程 展示 
出 来 。 


为 方便 读者 理解 Python 语 言 中 相关 消 数 的 使 用 ， 本 书 配套 提供 了 书 中 使 用 的 示例 的 代码 及 所 用 的 数据 ， 读 者 可 以 从 “ 泰 迪 杯 ” 全 国 数据 挖掘 挑战 赛 网 站 (http://www.tipdm.org/ts/755jhtml) 上 免 
费 下 载 。 读 者 也 可 通过 热线 电话 (40068-40020) 、 企 业 QQ (40068-40020) 或 以 下 微 信 公众 号 咨询 获取 。 


张 良 均 《大 数据 挖掘 产品 与 服务 > 


“ 开设 有 数据 挖掘 课程 的 高 校 教师 和 学 生 。 


目前 国内 不 少 高 校 将 数据 挖掘 引入 本 科教 学 中 ， 在 数学 、 计 算 机 、 自 动 化 、 电 子 信息 、 金 融 等 专业 开设 了 数据 挖掘 技术 相关 的 课程 ， 但 目前 这 一 课程 的 教学 使 用 的 工具 仍然 为 SPSS、SAS 等 传统 统计 工 
具 ， 并 没有 使 用 Python 作为 教学 工具 。 本 书 提供 了 有 关 Python 语 言 的 从 安装 到 使 用 的 一 系列 知识 ， 将 能 有 效 指导 高 校 教师 和 学 生 使 用 Python。 


数据 挖 据 开 发 人 员 。 
这 类 人 员 可 以 在 理解 数据 挖掘 应 用 需求 和 设计 方案 的 基础 上 ， 结 合 本 书 提供 的 Python 的 使 用 方法 快速 入 门 并 完成 数据 挖掘 应 用 的 编程 实现 。 


“ 进行 数据 挖掘 应 用 研究 的 科研 人 员 。 


许多 科研 院 所 为 了 更 好 地 对 科研 工作 进行 管理 ， 纷 纷 开发 了 适应 自身 特点 的 科研 业务 管理 系统 ， 并 在 使 用 过 程 中 积累 了 大 量 的 科研 信息 数据 。Python 可 以 提供 一 个 优异 的 环境 对 这 些 数据 进行 挖掘 分 析 
应 用 。 


“ 关注 高 级 数据 分 析 的 人 员 。 


Python 作为 一 个 广泛 用 于 数据 挖掘 领域 的 编程 语言 ， 能 为 数据 分 析 人 员 提 供 快速 的 、 可 靠 的 分 析 依据 。 


本 书 主要 分 为 两 大 部 分 ， 基 础 篇 和 建 模 应 用 篇 。 基 础 篇 介绍 了 有 关 Python 开 发 环境 的 搭建 、Python 基 础 入 门 、 函 数 、 面 向 对 象 编程 、 实 用 模块 和 图 表 绘 制 等 基础 知识 。 建 模 应 用 篇 主要 介绍 了 目前 数 
据 挖 掘 中 常用 的 建 模 方法 在 Python 中 的 实现 函数 ， 并 对 输出 结果 进行 了 解释 ， 有 助 于 读者 快速 掌握 应 用 Python 进行 分 析 挖 掘 建 模 的 方法 。 读 者 可 结合 本 书 提供 的 示例 代码 及 数据 进行 上 机 实验 ， 快 速 掌握 
书 中 所 介绍 的 Python 的 使 用 方法 。 


第 一 部 分 是 基础 篇 (1~6 章 ) 。 第 1 章 旨 在 让 读者 从 全 局 把 握 数 据 挖 气 、 常 用 工具 对 比 、Python 开 发 环境 的 搭建 以 及 本 书 的 写作 习惯 ; 第 2 章 正式 开始 讲解 Python 的 基础 知识 ， 包 括 操作 符 、 变 量 类 
型 、 流 程控 制 、 数 据 结构 等 内 容 ; 第 3、4 章 主要 对 Python 面向 对 象 的 特性 进行 介绍 ， 包 括 国 数 、 类 与 对 象 等 基本 概念 ;第 5 章 介 绍 主流 的 数据 分 析 与 挖掘 的 模块 ， 以 及 其 中 具体 的 方法 及 对 应 的 功能 ， 旨 在 
让 读者 对 各 个 模块 建立 强大 的 直觉 ;第 6 章 继续 拓展 了 模块 的 相关 内 容 ， 提 及 图 表 绘 制 的 专用 模块 (Matplotlibp 和 Bokeh) ， 深 入 浅 出 地 展示 如 何方 便 地 绘制 点 、 线 、 图 等 。 


二 部 分 是 建 模 应 用 篇 (7~ 11 章 ) 。 本 部 分 主要 对 数据 挖掘 中 的 常用 算法 进行 介绍 ， 强 调 在 Python 中 对 应 函数 的 使 用 方法 及 其 结果 的 解释 说 明 。 内 容 涵盖 五 大 主流 的 数据 挖掘 算法 ， 包 括 分 类 与 预 
测 、 聚 类 分 析 建 模 、 关 联 规则 分 析 、 智 能 推荐 和 时 间 序 列 分 析 。 按 照 模 型 建立 至 模型 评价 的 架构 进行 介绍 ， 使 读者 能 熟练 掌握 从 建 模 到 对 模型 评价 的 完整 建 模 过 程 。 


勘误 和 支持 


除 封面 轿 名 外 ， 参 加 本 书 编写 工作 的 还 有 杨 坦 、 刘 名 军 、 陈 婷 婷 、 陈 玉 辉 、 施 兴 、 黄 博 、 王 路 、 黄 东 塞 等 。 由 于 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 忧 请 读者 批评 
指正 。 本 书 内 容 的 更 新 将 及 时 在 “ 泰 迪 杯 ”全 国 数据 挖 扬 挑 战 赛 网 站 (www.tipdm.org) 上 发 布 。 读 者 可 通过 作者 微 信 公 众 号 TipDM ( 微 信 号 : TipDataMining) 、TipDM 官 网 (www.tipdm.com) 反馈 
有 关 问 题 。 也 可 通过 热线 电话 (40068-40020) 或 企业 QQ (40068-40020) 进行 咨询 。 


如 果 您 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮 件 至 邮箱 13560356095@ qq.com， 期 待 能 够 得 到 您 的 真挚 反馈 。 
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张 良 均 


` 第 1 章 ”数据 挖掘 概述 

* 第 2 章 ” Python 基础 入 门 
. 第 3 章 ，” 函数 

. 第 4 章 面向 对 象 编程 

“ 第 5 章 ”Python 实用 模块 


. 第 6 章 图 表 绘 制 入 门 


第 1 章 "数据 挖 握 概述 


广义 的 数据 挖掘 是 指针 对 收集 的 大 规模 数据 ， 应 用 整套 科学 工具 和 挖掘 技术 (如 数据 、 计 算 、 可 视 化 、 分 析 、 统 计 、 实 验 、 问 题 定义 、 建 模 与 验证 等 ) ， 从 数据 之 中 发 现 隐 含 的 、 对 决策 有 参考 意义 的 
信息 、 价 值 和 趋势 。 因 此 ， 数 据 挖掘 是 一 个 横 跨 多 学 科 的 计算 机 科学 分 支 。 强 调 它 隶 属 计算 机 科学 范畴 ， 是 希望 读者 认识 到 这 个 领域 的 核心 需求 ， 尽 早 摆脱 对 编程 实现 的 了 恐惧， 避免 陷入 “数据 挖掘 只 需 将 
模型 或 算法 套用 于 数据 集 之 上 ”的 误区 。 这 也 是 本 书 的 写作 目的 之 一 。 


1.1 数据 挖掘 简介 


随 着 计算 机 技术 的 全 面 发 展 ， 企 业 生 产 、 收 集 、 存 储 和 处 理 数 据 的 能 力 大 大 提高 ， 数 据 量 与 日 俱 增 。 数 据 的 积累 实质 上 是 企业 的 经 验 和 业务 的 沉 深 。 越 来 越 多 的 企业 引入 “数据 思维 " 
于 数据 的 统计 分 析 ， 更 强调 对 数据 进行 挖掘 ， 期 待 从 这 一 “未 来 世界 的 石油 ”中 发 现 潜在 的 价值 。 这 一 迫切 的 “开采 ”需求 在 世界 范围 内 酝酿 了 一 次 “大 数据 ”变革 。 


不 只 是 依赖 


数据 挖掘 的 确 是 21 世 纪 最 具 话 题 性 的 技术 之 一 ， 包 含 数据 预 处 理 、 算 法 应 用 、 模 型 评价 、 结 果 检验 等 多 个 部 分 ， 并 依靠 其 丰富 的 内 涵 向 外 延伸 出 数据 分 析 、 数 据 ETL、 机 器 学 习 等 多 个 领域 。 


1.2 工具 简介 


数据 挖掘 软件 的 历史 并 不 长 ， 甚 至 连 “ 数 据 挖 气 ” 这 个 术语 也 是 在 19 世 纪 90 年 代 中 期 才 正 式 被 提出 。 如 今 ， 商 用 数据 挖掘 软件 和 开源 工具 都 已 经 非常 成 熟 ， 不 仅 提供 易 用 的 可 视 化 界面 ， 还 集成 了 数据 
处 理 、 建 模 、 评 估 等 一 整套 功能 。 
部 分 开源 的 数据 挖掘 软件 ， 采 用 可 视 化 编程 的 设计 思路 。 之 所 以 这 么 做 ， 是 因为 它 能 足够 灵活 和 易 用 ， 更 适合 缺乏 计算 机 科学 知识 的 用 户 ， 如 WEKA 和 RapidMiner。 


当 用 户 拥 有 较 多 特定 的 分 析 需 求 ， 或 正在 自行 实现 一 个 改进 的 机 器 学 习 算法 时 ， 脚 本 型 语言 如 Python 和 R 将 更 符合 需要 。 同 时 ， 脚 本 型 语言 兼 具 运行 效率 和 开发 效率 ， 支 持 敏捷 型 的 迭代 更 新 。 
1.2.1 WEKA 


用 Java 编 写 的 WEKA 是 一 款 知名 的 数据 挖掘 工作 平台 ， 它 因 解 决 数据 挖掘 任务 的 实际 需求 而 生 ， 集 成 了 大 量 能 处 理 数 据 挖掘 任务 的 机 器 学 习 算 法 ， 这 些 算法 能 被 用 户 直接 应 用 于 数据 集 之 上 。 同 
时 ，WEKA 人 允许 开发 者 使 用 Java 语 言 ， 调 用 其 分 析 组 件 ， 基 于 WEKA 的 架构 进行 二 次 开发 ， 融 入 更 多 的 数据 挖 握 算法 ， 并 嵌入 到 软件 或 者 应 用 之 中 ， 自 动 完成 数据 挖掘 任务 ， 开 发 新 的 机 器 学 习 框 架 。 


WEKA 支 持 多 种 标准 数据 挖掘 任务 ， 包 括 数 据 预 处 理 ， 分 类 、 回 归 分 析 、 聚 类 、 关 联 规则 等 算法 的 应 用 ， 以 及 特征 工程 和 可 视 化 。 其 欢迎 界面 如 图 1-1 所 示 。 
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图 1-1 WEKA 欢 迎 界 面 


1.2.2 RapidMiner 


RapidMiner 的 目标 是 : “成 为 一 个 能 将 数据 变 成 宝贵 的 战略 资产 的 现代 平台 ”， 已 被 广泛 使 用 于 商业 应 用 、 学 术 研 究 、 教 育 、 敏 捷 开 发 等 领域 。 


RapidMiner 是 一 个 支持 数据 挖 气 、 文 本 挖掘 、 机 器 学 习 、 商 业 分 析 等 任务 的 集成 环境 ， 如 图 1-2 所 示 。 其 图 形 化 界面 采用 了 类 似 Windows 资 源 管理 器 中 的 树 状 结构 来 组 织 分 析 组 件 ， 提 供 500 多 种 分 析 
组 件 作为 计算 单元 (Operator) ， 服 务 于 数据 挖掘 的 各 个 环节 ， 如 数据 预 处 理 、 变 换 、 探 索 、 建 模 、 评 估 及 结果 可 视 化 。 这 些 计算 单元 有 详细 的 XML 文件 记录 。 


RapidMiner 是 基于 WEKA 二 次 开发 的 应 用 ， 这 意味 着 它 可 以 调用 WEKA 中 的 各 种 分 析 组 件 。 
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图 1-2 ”RapidMiner Studio 工 作 界 面 
1.2.3 Python 
Python 是 一 门 编程 语言 。 随 着 NumPy、SciPy、Matplotlib 和 Pandas 等 众多 程序 库 的 开发 ，Python 在 科学 计算 和 数据 分 析 领 域 占据 着 越 来 越 重要 的 地 位 。 在 大 多 数 数据 任务 上 ，Python 的 运行 效率 已 


经 可 以 媳 美 C/C++ 语 言 。2016 年 2 月 11 日 ， 科 学 家 宣布 : 人 类 在 去 年 9 月 首次 直接 探测 到 了 引力 波 ! 引力 波 高 峰 只 持续 了 四 分 之 一 秒 ， 同 时 仪器 接收 了 大 量 干扰 噪声 ， 需 要 处 理 的 数据 量 以 TB 计 ， 如 图 1-3 所 
示 。 其 中 ，Python 的 GWPY 模 块 提供 专业 的 数据 分 析 支 持 。 
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图 1-3 利用 公开 引力 波 数据 绘制 波形 图 
1.2.4 R 


R 语 言 是 一 种 为 统计 计算 和 图 形 显示 而 设计 的 语言 环境 ， 是 贝尔 实验 室 (Bell Laboratory) 的 Rick Becker、John Chambers 和 Allan Wilks 开 发 的 S 语 言 的 一 种 实现 ， 包 含 一 系列 统计 与 图 形 显示 工具 ， 
如 图 1-4 所 示 。 它 是 由 一 个 庞大 且 活 跃 的 全 球 性 研究 型 社区 维护 ， 主 要 包括 核心 的 标准 包 和 各 个 专业 领域 的 第 三 方 包 ， 提 供 丰 富 的 统计 分 析 和 数据 挖掘 功能 。 


R 语 言 至 少 拥有 以 下 优势 : @ 方 便 地 从 各 种 类 型 的 数据 源 中 获取 数据 ， 名 高 可 拓展 性 ，@ 出 色 的 统计 计算 功能 ，@ 顶 尖 水 准 的 制图 功能 ， 不 断 贡 献 强大 功能 的 开源 社区 。 它 与 Python 同 属 数据 挖掘 主 
流 编程 语言 ， 而 从 功能 与 代码 风格 的 角度 来 评价 ，R 与 MATLAB 是 最 像 的 。 


四 Rsudio 
File Edit Code View Plots Session Project Build Jooks Help | | | | | mn ” 
= 硬 | 芝 || 3 project: (INonej ~ 


QslidifyR* x* 名]jindexRmd*x  Q]PollAnalysis.R x 一 口 | Workspace History 一 站 
: 圆 Source onSsave | Q& Vi- ERun | By | [Source -| 各 | 上 享有 日 | 荔 ImportDatasetv | 才 @ 


5 ~ 帮 ## 帮 # 兴 闪闪 天 帮 闪 大寿 大 1 Data a 
6 setwd("C:\\Users\\Chris Rooney\\DoCcumenNnts\\My Dropbox\\CodeRepo\\R\\Vas 
7 pollData <- read.csv("data/poll.csv") 

8 pollData <- na.omit(pollData) el 2048x3 double matrix 


# Plot a graph showing the submission of each participant aa ES ee 
library(ggplot2) grey50 50 obs. of 4 variables 
library(scales) 
library(gridExtra) 
pets hp 和 i i I) mtcars 32 obs. of 11 variables 
weeklyResults <- function(theData, column, type, interval, result - 
guessData <- subset(theData, theData$Name != result) pollData 206 obs. of 5 variables 
hline.result <- data.frame(z = column[theDataS$Name==result], Film quine 146 obs. of 5 variables 
column. subset <- column[theData$Name!="Result"] - 
film.subset <- theData$Film[theData$Name!="Result"] trans 3x3 double matrix 
hline.mean <- aggregate(column.subset, list(Film=film.subset), mean) variable 50 obs. of 4 variables 
hline.median <- aggregate(column.subset, list(Film=film.subset), medi 
ggplot (data=guessData, aes_string(x="Name", y=type, fill="Name")) + Values 
geom_bar (stat="identity”, position="dodge”, colour="black"”) + TwoN numeric[101] 


facet_wrap(~Film) + 2 = TwoTwoN numeric[101] 
DO 


目 (Untitled) : R Script $ 


center 2048x3 double matrix 


lines 101 obs. of 5 variables 
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Jack the Giant Slayer 
类 柑 上 并 形 并 阐 并 涯 并 关上 ## 
printPlots(po11Data，"2013-03-01”， "no"，10，1) 


大举 举 娠 类 大 大大 春 帮 寿 春 大 
## 
大 08/03/13 # 

# # 

天 寿 帮 姑姑 帮 帮 大 大 大 大 拜 天 

printPlots(pollData, "2013-03-08”", “no”, 10, 1) 
printovierviewTable(pollData, "2013-03-08") 

rror: could not find function “printovierviewTab1le” 


天 内 内 内 内 天 许 玫 璋 闪闪 检 开 

和 和 

大 08/03/13 # 

太 

耕 拉 并 并 洋洋 洋洋 磋 耕 耕 磋 磋 

printPlots(pol11Data， "2013-03-15”", “no™”, 10, 1) 
printovierviewTable(pollData, "2013-03-15") 

NM | Error: could not find function “printovierviewTable™ 

加 > 

> createperformanceTables(pol11Data，c(” 2013-02-22”， "2013-03-01” ， "2013-03- 
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08", "2013-03-15")) 
~ 国 


、g 


图 1-4 ”R-Studio 工作 界面 


1.3” ”Python 开发 环境 的 搭建 
所 谓 编 程 语言 ， 意 指 “ 与 计算 机 交流 时 使 用 的 语言 ”。 它 是 一 种 被 标准 化 的 交流 技巧 ， 用 于 连接 程序 员 的 思维 和 计算 机 的 操作 。 学 习 编 程 语言 的 第 一 关 ， 就 是 安装 和 环境 配置 。 我 们 必须 与 计算 机 约定 
如 何 理解 代码 、 指 令 和 语法 ， 才 能 够 顺利 地 与 计算 机 交流 ， 赋 予 它 复杂 的 功能 。Python 便 是 其 中 的 一 种 “方言 ”。 


本 节 将 向 大 家 详细 介绍 ， 如 何在 不 同 的 操作 系统 上 快捷 地 使 用 Python 进行 编程 实现 。 
1.3.1 ”Python 安装 


对 于 新 手 ，Python 及 其 第 三 方 模块 在 安装 环节 有 许多 已 知 的 难题 。 比 如 源码 编译 的 安装 方式 、 环 境 变量 的 配置 、 不 同 模块 之 间 的 版 本 依赖 问题 。 如 果 陷入 其 中 的 某 一 个 泥潭 之 中 ， 将 浪费 初学 者 大 量 的 
时 间 ， 消 磨 热情 。 当 然 ， 如 果 读 者 能 独立 克服 ， 就 能 熟悉 相关 的 重要 概念 ， 大 有 神 益 。 


为 了 能 让 读者 顺利 阅读 本 书 的 后 续 内 容 ， 以 及 避免 不 必要 的 麻烦 ， 我 们 将 采用 更 加 简单 的 安装 方式 。 本 书 使 用 的 是 Python 的 科学 计算 发 行 版 一 Anaconda。 除 Python 本 身 之 外 ，Anaconda 襄 括 了 科 
学 计算 和 数据 分 析 所 需 的 主流 模块 ， 独 立 的 包 管理 工具 Conda[1j 以 及 两 款 不 同 风格 的 编辑 器 Jupyter 和 Spyder， 具 有 开源 精神 上 且 支 持 学 术 用 途 的 免费 额外 性 能 提升 。 官 方 软件 下 载 地 址 


为 : https://www.continuum.io/downloads。 


+ 总 本 书 使 用 的 是 当前 主流 的 Python 2.7 版 本 ， 有 较 多 的 网 络 参 考 资 料 。 截 至 本 书 完稿 时 ，Python 作 者 宣布 Python 2.x 系 列 将 会 在 2020 年 停止 更 新 ，Python 2.7 是 最 后 一 个 版 本 。Python 3.x 拥 有 一 系列 
重大 的 更 新 ， 包 括 一 些 基 础 的 语法 。 在 未 来 的 日 子 里 ， 越 来 越 多 的 主流 模块 将 逐渐 转向 Python 3.x 版 本 。 在 社区 真正 成 熟 之 前 ， 我 们 建议 入 门 级 读者 先 熟练 使 用 Python 2.7。 


1.Windows 下 安装 Python 


Anaconda 的 存在 使 得 在 Windows 系 统 中 安装 Python 得 到 极度 简化 ， 直 接 前 往 官方 网 站 找到 对 应 的 下 载 内 容 (图 1-5) ， 并 选择 Python 2.7 对 应 的 安装 包 ， 注 意 区 分 32 位 和 64 位 的 版 本 。 


PYTHON 2.7 PYTHON 3.5 


WINDOWS 64-BIT WINDOWS 64-BIT 


Windows 32-bit Windows 32-bit 
Graphical Installer Graphical Installer 
281M 283M 


图 1-5 ” Windows 下 Anaconda 的 两 个 主要 版 本 


下 载 后 运行 Anaconda 的 安装 程序 ， 这 里 大 部 分 的 操作 和 一 般 软 件 的 安装 无 异 ， 需 要 注意 的 是 : 如 图 1-6 所 示 ，Anaconda 默 认 会 自动 改写 环境 变量 配置 参数 ， 使 得 用 户 能 在 任何 的 路 径 下 使 用 Python 命 
令 行 模式 。 


© Anaconda2 4.0.0 (64-bib Setup =- DD 


dvamnced Installation (tptioms 
ANACOQNDA customize how Anaconda integrates with Windows 


advanced Options 


Add Anaconda to the system PATH environment variable 


This ensures that PATH is set correctly when using Python, IPython, 
conda. and any other program in the Anaconda distribution. 

It uncdhecked, then You must use the Anaconda Command Prompt 

人 located in the Start Meny under Anaconda (54-bit) )., 


This will alow other programs, sudh as Python Tools for Visual Studio 
PyCharm, Wing IDE, PyDeyv, and MSI binary padkages, to automatically 
detect Anaconda as the primary Python 2.,7 on the system, 


Eontinyuurm snalvtices, Ine, 


图 1-6 ” ”Anaconda 安装 界面 
如 果 读 者 自行 安装 原始 的 Python 版 本 ， 极 容易 忽略 这 一 步 ， 从 而 走 入 思维 的 言 区 ， 叶 致 永远 不 能 自行 安装 成 功 。 这 也 是 我 们 推荐 使 用 科学 计算 发 行 版 Anaconda 的 原因 。 
2.Linux 下 安装 Python 


大 多 数 Linux 发 行 版 ， 如 CentOS、Debian、Ubuntu 等 ， 都 已 经 自 带 了 Python 2.x 的 主 程序 。 因 此 ， 额 外 安装 Anaconda 需 要 做 好 管理 的 工作 ， 避 免 两 个 不 同 版 本 的 Python 冲突 ， 导 致 不 必要 的 错误 。 
如 果 读 者 确定 内 置 版 Python 能 够 兼容 书 中 代码 ， 亦 可 不 额外 安装 Anaconda。 


下 面 介 绍 如 何 安装 Anaconda， 并 避免 与 内 置 版 的 Python 冲突 ， 如 图 1-7 所 示 。 本 教程 以 Ubuntu 16.06 为 例 。 


1) 前 往 官 方 网 站 下 载 对 应 版 本 的 Anaconda， 默 认 情况 下 ，Linux 会 自动 将 下 载 所 得 文件 归档 在 “下 载 ”文件 夹 中 。 


2) 假设 下 载 所 得 文件 在 “下 载 ” 这 一 文件 夹 中 ， 如 果 不 是 ， 请 替换 路 径 ， 并 输入 下 面 的 命令 ， 以 执行 批 处 理 指令 ， 安 装 Anaconda。 


$ bash ~/ 下 载 /Anaconda2-4.0.0-Linux-x86 64.sh 


OO ruvi@rui:~ 
rui@rui:~$ bash ~/ 下 载 /Anaconda2-4.0.90-Linux-x86 64.sh 


Welcome to Anaconda2 4.0.0 (by Continuum Analytics, Inc.) 


In order to continue the installation process, please review the license 
agreement. 

Please, press ENTER to continue 

>>> 


图 1-7 Anaconda 安 装 界 面 
安装 过 程 中 ， 将 会 在 屏幕 上 打印 出 用 户 协 议 许可 ， 你 需要 利用 Enter 继 续 阅 读 。 阅 读 人 至 文件 未 尾 ， 输 入 yes 并 部 击 Enter 键 来 表示 你 同意 以 上 内 容 并 使 用 默认 路 径 开始 安装 。 


3) 如 图 1-8 所 示 ， 输 入 yes 来 确认 人 允许 Anaconda 为 你 自动 配置 环境 变量 PATH。 


rui@rui: ~ 


Zlib-1.2.8-0 ... 
anaconda-4.96.9-nplloepy27 9 ... 
conda-4.0.5-py27 0 ... 
conda-build-1.20.0-py27 0 ... 
conda-env-2.4.5-py27 0 ... 
Python 2.7.11 :: Continuum Analytics, Inc. 
creating default environment... 
installation finished. 
Do you wish the installer to prepend the Anaconda2 install Location 
to PATH in your /home/rui/.bashrc ? [yeslno] 
[no] >>> yes 


Prepending PATH=/home/rui/anaconda2/bin to PATH in /home/rui/.bashrc 
\ backup will be made to: /home/ruil.bashrc-anaconda2 .bak 


For this change to become active, yoy have to open a new terminal. 
Thank you for installing Anaconda2! 


Sshare vyour notebooks and packages on Anaconda CLoud ! 
sign up for free: https://anaconda.org 


4) 当 看 到 图 1-9 中 的 欢迎 信息 之 后 ， 代 表 已 经 成 功 安 装 Anaconda。 然 后 我 们 执行 下 面 的 命令 ， 将 Anaconda 的 位 置 加 载 至 环境 变量 PATH 的 开头 ， 使 得 当 我 们 使 用 Python 时 ， 总 是 优先 使 用 Anaconda 
版 。 


$ _ export PATH="SHOME/anacondqa2/bin:SPATH" 


之 后 ， 我 们 可 以 直接 输入 python ， 以 检查 是 否 能 够 正确 使 用 Anaconda 版 的 Python。 


hank you for installing Anaconda2! 


Sshare your notebooks and packages on Anaconda Cloud! 
Sign Up for free: https://anaconda.org 


rui@rui:~$ export PATH="S$HOME/anaconda2 /bin:S$PATH" 

ruiQrui:~$ echo SPATH 

home /rui/anaconda2 /bin: /usr/local/sbin: /usr/local/bin: /usr/sbin: /usr/bin: /sbin: 
bin: /usr/games: /usr/local/games: /snap/bin: /usr/lib/ijvm/java-8-oracle/bin: /usr/\ 
ib/ijvm/java-8-oracle/db/bin: /usr/lib/ijvm/java-8-oracle/ijre/bin 

rui@rui:~$ python 

ython 2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Dec 6 2015，18:08:32) 

[GCC 4.4.7 201206313 (Red Hat 4.4.7-1)] on linux2 

ype "help", "copyright", "credits" or "license" for more information. 

Anaconda is brought to You by Continuum Analytics. 

PLease check out: http://continuum.io/thanks and https://anaconda.org 


图 1-9 ”手动 改写 优先 级 


类 似 Windows 下 的 安装 ，Mac OS X 系 统 用 户 可 以 直接 前 往 官方 网 站 下 载 一 个 图 形 化 安装 程序 。 同 时 ， 因 为 OS X 系 统 是 基于 UNIX 内 核 开发 的 ， 所 以 我 们 也 能 够 打开 终端 ， 通 过 命令 行 的 方式 来 安装。 
这 里 主要 叙述 利用 终端 安装 的 方法 。 


1) 下 载 OS X 下 对 应 版 本 的 Anaconda， 如 图 1-10 所 示 。 


© 主题 ”利用 终端 安装 Anaconda 实 际 上 是 在 进行 “源码 编译 ”。 后 续 步 骤 中 需要 的 是 二 进 制 文件 (Command-Line Installer) ， 而 非 图 形 化 的 安装 界面 (Graphical Installer) 。 


PYIHON 2.7 PYTHON 3.5 


MAC OSX 64-BIT MAC OS X64-BIT 


Mac OS X 64-bit Mac OS X 64-bit 
Command-Line installer Command-Line installer 
290M (OSX 10.7 or higher) 293M (OSX 10.7 or higher) 


图 1-10 ”OS X 下 Anaconda 的 两 个 主要 版 本 
2) 按 下 Alt+Space， 打 开 Search 界 面 ， 输 入 terminal， 单 击 搜索 出 来 的 “Terminal” (终端 图 标 。 


3) 输入 下 面 的 命令 ， 执 行 批 处 理 指令 ， 安 装 Anaconda， 如 图 1-11 所 示 。 


$ bash~/Downloads/Anaconda2-4.0.0-MacOSX-x86 64.sh 


Oe 人 mac 一 -bash 一 80x24 


Last login: Mon Jun 6 14:32:25 on console 
MACtekiMacBook-Pro:~ mac$ bash ~/DowntLoads/Anaconda2-4.9.09-Mac0OSX-x86_64. sh 有 i 


图 1-11 OS X 中 安装 Anaconda 


安装 过 程 中 ， 将 会 在 屏幕 上 打印 出 用 户 协 议 许 可 ， 你 需要 利用 Enter 继 续 阅 读 。 阅 读 至 文件 未 尾 ， 输 入 yes 并 敲 击 Enter 键 来 表示 你 同意 以 上 内 容 并 使 用 默认 路 径 开 始 安装 。 
4) 输入 yes 来 确认 允许 Anaconda 为 你 自动 配置 环境 变量 PATH。 


5) 与 Linux 下 安装 类 似 ， 同 样 需要 将 Anaconda 的 位 置 加 载 至 环境 变量 PATH 的 开头 ， 使 得 当 我 们 使 用 Python 时 ， 总 是 优先 使 用 Anaconda 版 。 


$ _ export PATH="S$SHOME/anacondqa2/bin:SPATH" 


之 后 ， 我 们 可 以 直接 输入 python ， 以 检查 是 否 能 够 正确 使 用 Anaconda 版 的 Python。 


以 Windows 系 统 为 例 ， 安 装 Python 后 ， 你 可 以 在 开始 菜单 中 ， 找 到 对 应 的 Command Line 版 本 的 Python Shell， 或 者 同时 按 下 Win+R 键 ， 输 入 cmd 并 按 回 车 ， 打 开 命 令 窗口 ， 如 图 1-12 所 示 。 在 命令 
窗口 中 输入 python 即 可 使 用 进入 Python 的 命令 行 模式 。 


[ee C:\Windows\system32\cmd.exe - Python - D 配 到 


icrosoft Windows [hh 小 6.3.9600] 人 
Cc»> 2013 Microsoft Cokpokhation 。 保留 所 有 权利 。 


:JUsekrsNORamon>puthon 
Python 2.7.11 hnaconda 4.090.090 64-bit>!: default。Fehb 16 20816,. 0@9:58:36> [MSC wv. 


1 

ype "help”, "copyright",. "credits"” or "license'’ for more information. 
Nnaconda is brought to vou by Gontinuum hnalutics - 

Please check out: http://continuum.io/thanks and https://anaconda.org 


yy 


搜狗 拼音 簿 六 法 全 : v 


图 1-12 Python 命 令 行 窗口 (1) 


其 中 ， 可 以 看 到 对 应 的 Python 版 本 信息 和 系统 信息 。 我 们 可 以 在 标识 符 “> > > ”后 面 输入 代码 ， 程 序 就 会 马上 返回 一 个 结果 ， 如 图 1-13 所 示 。 


es C:\Windows\system32\cmd.exe - python 
icrosoft Windows [hh 6.3.9600] 
《Cc> 2013 Microsoft Corporation, 保留 所 有 权利 o 


:JUsersNORamon>puthon 
ython 2.7.11 ifnaconda 4.0.090 64-bit>: Cdefault, Feb 16 2016b6b。0929:58:3b> [MSGC wv. 


1 
ype "help”, "copyright",. "credits'’ or "license' for more information. 


Nnaconda is brought to vou by Gontinuum hnalutics - 


图 1-13 ” Python 命令 行 窗口 (2) 


Python Shell 是 交互 式 Shell， 交 互 式 是 指 当 你 输入 代码 到 Python Shell 中 时 就 可 以 动态 地 看 到 相应 的 返回 结果 。 


二 三 ch ,|| IDLE (Pvthon GUI|) 


下 面 将 要 介绍 的 是 带 图 形 界面 的 Python GUI。 在 Windows 下 的 所 有 程序 上 搜索 IDLE， 就 可 以 直接 打开 Python Shell-IDLE。 打 开 后 界面 如 图 1-14 所 示 。 


和 [ss 
Fle Edit Shell Debug Options Window Help 


Python 2.7.11 |sanaconda 4.0.0 (6d-bit)| (default, Feb 16 2016, 09:58:36) [MSC w. 
1500 6d4 bit (ANWD6d)] on win32 


2 “copyrigeht”, “credits” or "license(l)” for more information. 
> 六 > 


图 1-14 Python GUI 


我 们 同样 可 以 在 这 个 界面 上 输入 代码 ， 结 果 和 在 Command Line 上 输入 的 结果 一 样 。 但 在 这 个 界面 上 我 们 可 以 通过 菜单 栏 的 File-> New File 创 建 Python 脚 本 ,在 Python 脚 本 上 写 多 行 代 码 ， 保 存 为 .py 
文件 后 并 运行 该 脚本 ， 而 在 Command Line 上 运行 多 行 代 码 只 能 一 行 接着 一 行 输入 并 按 回 车 输出 ， 显 得 十 分 繁琐 。 运 行 Python 脚 本 实际 上 也 是 按 顺 序 运 行 每 行 的 代码 ， 运 行 脚本 后 将 回 到 Python GUI 界 
面 ， 这 时 候 Python 已 经 存储 脚本 运行 后 的 数据 ， 我 们 可 以 在 界面 上 继续 输入 代码 ， 如 图 1-15 所 示 。 本 书 的 代码 都 会 放 在 Python 肢 本 中 ， 方 便 读者 阅读 和 运行 。 


图 1-15 ”Python GUI 脚本 界面 


3. 第 三 方 Python IDE 


1DE 是 集成 开发 环境 (Integrated Development Environment) 的 英文 简称 。 而 第 三 方 IDE 通 常 聚合 了 更 强大 的 功能 ， 包 括 代码 版 本 管理 、 项 目 代 码 管理 、 代 码 自动 补 全 等 。PyCharm 就 是 这 样 一 个 跨 
平台 的 、 多 功能 的 集成 开发 环境 ， 主 要 分 为 免费 社区 版 〈( 见 图 1-16) 和 付费 商业 版 。 


Welcome to PyCharm Community Edition 


图 1-16 ”PyCharm 社 区 版 


如 图 1-17 所 示 ， 在 选择 创建 项 目 以 及 确定 项 目 存 储 路 径 之 后 ， 我 们 能 看 到 一 个 清晰 简洁 的 界面 。 左 侧 栏 是 项 目 管理 窗口 ， 负 责 组 织 Python 实 现 的 项 目 中 所 涉及 的 全 部 代码 和 数据 文件 。 右 边 是 正式 的 编 
辑 区 。 在 选择 创建 新 的 Python File 之 后 ， 将 能 配合 内 置 的 自动 补 全 、 代 码 提 示 、 调 试 运行 功能 进行 代码 的 编辑 、 改 正和 优化 。 同 时 ， 它 还 能 自动 结合 Git 进 行 代码 版 本 控制 。 有 兴趣 的 读者 可 以 自行 查找 资 
料 。 当 我 们 需要 做 一 个 大 型 项 目 ， 代 码 量 较 多 时 ， 用 带 有 项 目 管理 功能 的 PyCharm 会 更 加 方便 。 


untitled - [D:\PycharmProjects\untitled] - PyCharm Community Edition 2016.1.2 
Fle Edit View Navigate Code Refactor Run Tools VCS Window Help 
户 untitled 
后 project ~ 四 幸 | 闪 -及 
户 untitled D:\PycharmProjects\untitled 


》 哆 External Libraries NR 日 


Cul+X DDirectory 
Ctrl+C Python package 


Copy path crl+shifttC EE 


Copy as Plain Text 钞 Jupyter Notebook 
Copy Reference Ctrl+Alt+Shift+C 图 HTML File 
印 paste Ctrl+V 


Find Usages Alt+F7 |， Search Everywhere Double Shift 
Find in Path... Ctrl+Shift+F 


Replace in Path... Ctrl+Shift+R | Go to File Ctrl+Shift+N 


Inspect Code... 


Refactor Recent Files Ctrl+E 


Clean Python Compiled Files 


Navigation Bar Alt+Home 
Add to Favorites D 


Show Image Thumbnails Ctrl+Shift+T Drop files here to open 


je Run 'Nosetests in untitled' Ctrl+Shift+F10 
幅 Debug 'Nosetests in untitled' 


咖 Create 'Nosetests in untitled'... 


Local History 
C5 Synchronize 'untitled 


Show in Explorer 
File Path Ctrl+Alt+F12 


六 Compare With... Ctrl+D 
Mark Directory As .2 
®) Create Gist... 


Creates a Python file from the specified template 
图 1-17 PyCharm 新 建 Python File 
1.3.3 ”与 读者 的 约定 


1. 排 版 格式 说 明 
本 书 的 示例 代码 格式 分 为 两 种 ， 一 种 是 Python IDLE 的 命令 行 代码 ， 带 有 “> > >”。 命 令 行 代码 可 能 马上 会 返回 结果 ， 这 个 结果 会 紧 贴 在 命令 行 代码 的 下 一 行 ， 结 果 的 输出 不 带 有 “> >>”。 


例如 : 


>>>x 
1 
另 一 种 格式 是 带 有 上 下 分 隔 线 的 代码 清单 ， 这 种 格式 用 于 展示 某 个 完整 的 知识 点 。 为 读者 阅读 方便 ， 当 代码 清单 出 现 输出 语句 时 ， 我 们 都 把 输出 结果 放 在 下 一 行 ， 并 用 注释 “#result: ”标示 。 如 代码 


清单 1-1 所 示 : 


代码 清单 1-1 某 个 知识 点 


print 1 
# result: 1 
print 'Hello Python' 
# result: 

Hello Python 


其 中 “1-1” 表 示 第 1 章 第 1 个 代码 清单 。 为 了 叙述 方便 ， 一 个 完整 的 程序 可 能 被 拆 分 到 多 个 代码 清单 中 ， 在 同一 小 节 中 的 后 续 代 码 中 ， 有 可 能 会 沿用 先前 已 声明 的 变量 。 
2. 示 例 代 码 使 用 说 明 
本 书 默认 支持 的 Python 版 本 为 2.7.11， 其 中 书 中 讲解 的 模块 对 应 的 版 本 号 如 表 1-1 所 示 。 


表 1-1 模块 版 本 说 明 


本 与 
.10.4 


| 
0.18.0 
0.17.0 
0 
] 
0 


sclkit-learn 
Matplotlib 


okeh 


.1/ 
.| 


本 书 附件 资源 按照 章节 组 织 ， 在 代码 附件 的 目录 下 会 有 第 1 章 、 第 2 章 、 第 3 章 等 子 章节 目录 。 在 章节 目录 下 包含 了 2 个 文件 夹 : “示例 程序 ”文件 夹 和 “上 机 实验 ”文件 夹 。“ 示 例 程序 ”文件 夹 包 合 3 


个 子 目 录 : code、data、tmp。 其 中 ，code 包 含 正 文中 每 个 章节 的 全 部 代码 清单 ;data 包 含 代码 清单 中 所 使 用 的 数据 文件 ;tmp 文 件 夹 中 包含 示例 程序 运行 的 结果 文件 。 在 部 分 章节 中 ， 上 述 3 个 文件 夹 可 
能 为 空 。“ 上 机 实验 ”文件 夹 主要 针对 每 章 最 后 的 上 机 实验 ， 给 出 了 上 机 实验 的 参考 答案 。 其 子 目 录 结 构 与 示例 程序 一 致 。 


读者 下 载 附件 资源 后 和 所， 直接 使 用 Python 运行 对 应 的 代码 脚本 (.py) 即 可 观察 结果 。 值 得 注意 的 是 ， 使 用 Anaconda 的 读者 只 需 保持 目录 结构 即 可 完整 运行 程序 ， 自 行 安装 Python 的 读者 ， 请 确保 你 
的 模块 版 本 与 表 1-1 一 致 。 


[1] Conda 在 升级 模块 时 ， 能 够 递归 地 寻找 需要 升级 的 前 置 模块 ， 自 行 解决 模块 的 版 本 依赖 问题 。 
[2] 具体 资源 下 载 地 址 见 前 言 内 容 。 


编辑 注 


1 相让 全 


本 章 着 重 介绍 了 数据 挖掘 及 推荐 使 用 的 数据 挖掘 工具 ， 旨 在 让 读者 对 数据 挖掘 形成 初步 感觉 ， 逐 渐 培 养 成 熟 的 大 局 观 。 其 次 ， 深 入 介绍 并 对 比 了 多 种 工具 ， 如 WEKA，Python 等 ， 从 宏观 角度 把 握 不 同 
工具 的 特点 和 特性 。 本 书 是 基于 Python 讲解 ， 所 以 最 后 又 重点 介绍 了 Python 开发 环境 的 搭建 ， 展 示 了 三 类 主流 操作 系统 的 完整 安装 过 程 ， 并 介绍 了 三 种 编写 脚本 的 风格 ， 还 向 读者 说 明了 本 书 的 正确 使 用 
方式 ， 以 帮助 读者 更 好 地 阅读 本 书 。 


第 2 章 “Python 基础 入 门 


本 章 是 Python 的 基础 章节 ， 读 者 可 以 在 这 章 中 学 习 到 丰富 的 Python 基础 知识 。 首 先 我 们 会 从 操作 符 和 最 简单 的 数字 数据 入 手 ， 然 后 就 是 流程 控制 ， 到 这 里 读者 能 够 对 Python 程序 结构 有 一 个 清晰 的 认 
识 。 接 着 是 较 复杂 的 数据 结构 ， 主 要 涉及 Python 最 常用 的 五 大 内 建 数据 类 型 : 列表 ， 字 符 串 ， 元 组 ， 字 典 和 集合 。 这 部 分 重点 对 这 些 数据 结构 的 用 法 进行 讲述 ， 由 于 内 容 有 限 ， 并 没有 太 多 涉及 它们 的 时 间 
复杂 度 、 空 间 复杂 度 和 源码 编写 。 我 们 并 不 认为 这 是 可 以 忽略 的 ， 建 议 读者 查阅 其 他 资料 对 数据 结构 的 复杂 度 有 一 定 的 认识 。 本 章 最 后 讲述 的 是 Python 的 文件 读 写 操作 ， 读 者 可 以 了 解 到 Python 是 如 何 同 
本 地 的 文件 进行 交互 。 如 果 你 是 零 基 础 学 习 Python 的 话 ， 通 过 本 章 的 学 习 你 已 经 能 够 使 用 Python 实现 很 多 很 多 算法 了 。 


2.1 ”常用 操作 符 


Python 的 常用 操作 符 可 分 为 4 种 ， 分 别 为 算术 操作 符 、 赋 值 操作 符 、 比 较 操作 符 和 逻辑 操作 符 。 算 术 操 作 符 一 般 会 返回 一 个 数 ， 而 比较 和 逻辑 操作 符 会 返回 布尔 值 True 或 False。 我 们 需要 注意 操作 符 的 
运算 优先 级 ， 否 则 将 得 到 与 我 们 预料 不 符 的 结果 。 如 果 想 改变 运算 的 优先 级 ， 可 以 使 用 小 括号 。 下 面 将 逐一 介绍 每 种 操作 符 。 


2.1.1 算术 操作 符 
值得 注意 的 是 取 商 运算 和 除法 运算 。 对 于 除法 运算 ， 如 果 除 号 两 侧 的 值 都 是 整数 ， 那 么 得 到 的 结果 是 一 个 向 下 取 整 的 整数 。 如 果 其 中 一 个 是 浮 点 数 ， 那 么 得 到 的 结果 最 多 保留 17 位 有 效 数 字 。 而 取 商 运 
算 正 好 与 前 面 的 相反 ， 无 论 “//” 两 侧 的 值 是 浮 点 数 还 是 整数 ， 返 回 的 结果 都 会 向 下 取 整 ， 但 其 数据 类 型 是 小 数 点 后 有 一 位 小 数 0 的 浮 点 数 ， 如 表 2-1 所 示 。 


表 2-1 算术 操作 符 


操作 符 实例 


十 返回 两 操作 数 相 加 的 结果 3+2 返回 5 
— 返回 左 操作 数 减 去 右 操作 数 的 结果 3-2 返回 1 

返回 两 操作 数 相 乘 的 结 末 3*2 返回 6 

/ 返回 右 操 作 数 除 左 操 作 数 的 结果 3/2 返回 1 但 3.0/2 返回 1.5 
% 模 : 返回 右 操作 数 对 左 操 作 数 取 模 的 结果 5/3 返回 2 

We 指数 : 对 操作 数 执行 指数 运算 的 计算 3**2 返回 9 

// 取 商 : 返回 右 操 作 数 对 左 操 作 数 取 商 的 结果 3.0//2 返回 1.0 


2.1.2 ”赋值 操作 符 


赋值 操作 符 主要 是 “=”， 其 他 都 是 运算 操作 符 和 “=” 的 结合 ， 其 存在 意义 都 是 简化 代码 ， 见 表 2-2。 


表 2-2 ”赋值 操作 符 


操作 符 例子 


- 简单 的 赋值 运算 符 ， 将 右 侧 操作 数 赋值 给 左 侧 操作 数 carb 将 a 和 b 相 加 的 值 赋值 给 
加 法 AND 赋值 操作 符 ， 左 操作 数 加 上 右 操作 数 ， 并 将 结果 出 
“| 赋 给 左 操作 数 ii 
减法 AND 赋值 操作 符 ， 左 操作 数 减 去 右 操 作 数 ， 并 将 结果 | 
“| 赋 给 左 操作 数 A 
乘法 AND 赋值 操作 符 ， 左 操作 数 乘 以 右 操作 数 ， 并 将 结果 | 。 ， ， 
赋 给 左 操作 数 a 
除法 AND 赋值 操作 符 ， 左 操作 数 除 以 右 操作 数 ， 并 将 结果 | 
/= 喷绘 无 操作 数 b= 相当 于 6=6/a 
模 量 AND 赋值 操作 符 ， 它 需要 使 用 两 个 操作 数 的 模 量 ， 并 | 
”| 将 结果 分 配给 左 操作 数 人 
呈 指数 AND 赋值 操作 符 ， 执 行 指数 (功率) 计算 操作 符 , 并 | jw 二 x 
”| 将 结果 赋值 给 左 操作 数 a 
//= 取 商 AND 赋值 操作 符 ， 执 行 取 商 并 将 结果 赋值 给 左 操 作 数 | c //= a 相当 于 c=c//a 


2.1.3 ”比较 操作 符 


Python 的 比较 操作 符 与 Jlava 和 CC 类似， 同样 很 简单 ， 如 表 2-3 所 示 。 


表 2-3 ”比较 操作 符 


RT Em 


= 二 如 末 两 个 操作 数 的 值 相 等 则 返回 Trre， 否 则 返回 False ==2 人 运 回 False 
!= 如 有 果 两 个 操作 数 的 值 不 等 则 返回 True， 否 则 返回 False 3!=2 返回 True 
cy 与 != 效果 相同 3<>2 返回 True 
> 如 末 左 操作 效 大 于 右 操 作 数 则 返回 True， 否 则 返回 False 3>2 返回 True 
< 如 果 左 操作 数 小 于 右 操 作 数 则 返回 True， 否 则 返回 False 3<2 返回 False 
>= 如 果 左 操作 数 大 于 或 等 于 右 操 作 数 则 返回 True， 人 否则 返回 False 3>=3 返回 True 


<= 如 末 左 操作 数 小 于 或 等 于 右 操 作 数 则 返回 True， 否 则 返回 False 2<=2 运 回 True 


2.1.4 ”逻辑 操作 符 


Python 的 逻辑 操作 符 有 and、or、not， 分 别 对 应 逻辑 学 的 与 、 或 、 非 ， 如 表 2-4 所 示 。 逻 辑 操 作 符 的 两 端 一 般 是 布尔 值 数 据 。 


表 2-4 ”还 辑 操作 符 


RT 


逻辑 与 操作 符 。 当 且 仅 当 两 个 操作 数 均 为 真 则 返回 只， 否则 返 


d 下 d False 返回 Fal 
an 回 候 rue and False 返 alse 
逻辑 或 操作 符 。 当 且 仅 当 有 两 个 操作 数 至 少 一 个 为 真 则 返回 真 ， 、 
or | ， True and False 返回 True 
否则 返回 假 
not 逻辑 非 操 作 符 。 用 于 反 转 操作 数 的 逻辑 状态 not True 返回 False 


2.1.5 ”操作 符 优 先 级 


表 2-5 列 出 了 上 面 提 及 的 操作 符 的 优先 级 (从 最 高 到 最 低 ) 。 


表 2-5 ”操作 符 优先 级 


操作 符 描述 操作 符 描述 

比较 操作 符 
*/ % /| 乘 , 除 , 取 模 ,， 取 商 = 4= #4 赋值 操作 符 
+ 成 员 扣 作答 
2 江 辑 操作 答 


米 米 


2.2” 数 子 数据 
这 节 我 们 将 探讨 Python 最 基本 的 赋值 语句 和 数字 的 数据 类 型 。 
2.2.1 ”变量 与 赋值 


变量 是 我 们 广 为 熟 悉 的 概念 。 程 序 语言 中 的 变量 和 数学 上 的 变量 类 似 ， 如 果 需 要 对 x 赋值 3， 执 行 下 面 语句 : 


>>>x= 3 


这 样 程序 将 会 为 变量 x 申请 地 址 并 存储 它 。 “=” 的 这 个 操作 称 为 赋值 。 如 果 再 执行 : 


>>>x*2 


没有 释 量 引用 此 
地 址 ， 即 将 锌 回收 


内 存 地 址 1， 数 据 . 3 


内 存 地 址 2， 数 据 . 6 


图 2-1 变量 与 地 址 


那么 结果 返回 3*2 的 值 ， 但 注意 运行 后 x 的 值 仍 为 3， 如 果 希 望 保存 6 的 值 ， 可 写成 x=x*2 或 x*=2。 不 过 ，Python 的 变量 是 不 可 变 对 象 ， 读 者 可 能 会 感到 疑惑 ，x*=2 这 个 语句 就 已 经 让 x 的 值 发 生 了 改变 ， 
为 什么 还 说 变量 是 不 可 变 的 呢 ? 实际 上 ， 如 果 变 量 的 值 发生 改 变 ，Python 会 自动 创建 另 一 个 对 象 申请 另 一 块 的 内 存 ， 并 改变 变量 的 对 象 引 用 ， 如 图 2-1 所 示 。 这 样 做 的 优点 是 减少 了 重复 的 值 对 内 存 空间 的 
占用 ， 而 缺点 则 是 每 次 修改 变量 都 需要 重新 开辟 内 存单 元 ， 给 执行 效率 带 来 一 定 影响 。 下 面 的 代码 清单 2-1 给 出 了 一 个 例子 。 


代码 清单 2-1 ”变量 与 赋值 


print 1'11 变 量 与 赋值 ' ri 
x=3 

print x 

# result: 3 


print id(x) # 查看 x 的 内 存 地 址 ， 每 次 运行 都 会 发 生变 化 


#result: 39011144 

XxX*=2 

print x 

#result: 6 

print id(x) # 再 次 查看 x 的 内 存 地 址 ， 每 次 运行 都 会 发 生变 化 ,但 内 存 必然 会 变化 
#result: 39011108 


* 代 码 详 见 : 示例 程序 /code/2-2.py 


2.2.2 ”数字 数据 类 型 


数字 的 基本 数据 类 型 可 分 为 整数 、 浮 点 数 、 布 尔 值 。 创 建 变量 时 ，Python 不 需要 声明 数据 类 型 ，Python 能 够 自动 识别 数据 类 型 。x=3 的 数据 类 型 是 整数 ， 而 x=3.3 的 数据 类 型 是 浮 点 数 ， 函 数 
type (x) 可 以 查看 数据 的 数据 类 型 。 布 尔 值 只 有 True 和 False 两 种 值 ， 支 持 and、not、or 三 种 运算 ， 这 在 2.1.4 节 中 已 经 介绍 到 。 


和 数学 运算 不 同 的 地 方 是 ，Python 的 整数 结果 仍然 是 整数 ， 如 果 操 作 符 两 端 其 中 一 个 操作 数 是 浮 点 数 ， 那 么 运算 结果 是 浮 点 数 。 如 : 


1+2=> 整 数 3 
1.0+2=> 浮 点 数 3.0 


整数 运算 的 结果 永远 是 精确 的 ， 而 浮 点 数 运算 的 结果 不 一 定 是 精确 的 。 计 算 机 的 内 存 是 有 限 的 ， 无 法 存储 无 限 位 的 小 数 。Python 的 浮 点 数 实际 上 是 双 精 度 浮 点 数 ， 在 C 中 称 为 double 类 型 ， 具 体 存 储 方 
式 读 者 可 以 参考 维基 百科 l1]。 举 一 个 丢失 精度 的 例子 ， 如 果 在 Shell 输 入 : 


>>>1 /L000OxLO**9 
>>>0 


结果 返回 0， 这 是 因为 1 除 以 10 的 9 次 方 的 数 太 小 ， 计 算 机 只 存储 到 前 面 的 0， 除 法 过 后 返回 了 结果 0， 然 后 0 乘 以 任何 数 都 返回 0， 最 后 导致 精度 的 丢失 。 所 以 在 数值 计算 算法 的 设计 上 ， 常 常 要 考虑 精度 


丢失 的 问题 ， 有 时 候 一 个 好 的 办 法 是 改变 运算 顺序 : 


> > A 
>>>1 


[1] http://en.wikipedia.org/wiki/ Double_precision。 


2.3 ”流程 控制 


流程 控制 是 一 门 程序 语言 的 基本 ， 掌 握 Python 流 程控 制 语句 就 已 经 能 够 实现 很 多 算法 了 。 本 节 主 要 介绍 Python 的 条 件 分 支 结 构 if 语 句 和 两 种 主要 循环 结构 while 语 句 和 fori 语 句 ， 并 在 最 后 详细 讲解 
Python 函数 的 用 法 。 如 果 读 者 有 一 定 的 编程 基础 ， 对 条 件 分 支 、 循 环 和 函数 这 3 种 结构 比较 熟悉 ， 那 么 本 节 的 内 容 是 简单 的 。 如 果 读 者 初 入 编程 ， 请 认真 阅读 本 节 ， 这 些 内 容 是 你 日 后 编程 的 基础 。 


2.3.1 _ if 语句 
如 果 你 的 任务 是 输出 两 个 数 a 和 b 之 间 的 较 大 者 ， 那 么 你 的 思路 应 该 是 这 样 的 : 
如 果 a 大 于 b: 输出 a 否则 : 输出 b 


如 果 想 通过 Python 实 现 上 面 的 思想 ， 就 必须 借助 if 语 句 实现 条 件 分 支 。 在 介绍 if 语 句 前 ， 我 们 先 来 了 解 布尔 表达 式 的 相关 内 容 。 
1. 布 尔 表达 式 


在 3.2 节 中 我 们 简单 介绍 过 布尔 值 ， 而 布尔 表达 式 是 返回 一 个 布尔 值 (或 称 为 真 值 ) 的 表达 式 。 首 先 下 面 的 值 作为 布尔 表达 式 的 时 候 ， 会 直接 返回 假 (False) : 


False ,None /0 ，""，() ，[] ，{} 


也 就 是 说 ， 标 准 值 False 和 None， 数 字 0 和 所 有 空 序列 都 为 False， 其 余 的 单个 对 象 都 为 True。 


在 表达 式 运算 的 过 程 中 ，True 会 视 为 数值 1，False 会 视 为 数值 0， 这 与 其 他 编程 语言 是 相似 的 。 逻 辑 表达 式 是 布尔 表达 式 的 一 种 ， 逻 辑 表 达 式 指 的 是 带 逻 辑 操作 符 或 比较 操作 符 (如 >，==) 的 表达 
式 。 逻 辑 表 达 式 返回 的 是 False 或 者 True。 代 码 清单 2-2 举 了 一 些 带 True 和 False 的 表达 式 运算 的 例子 : 


代码 清单 2-2 布尔 表达 式 


print "布尔 表达 式 " 
print True,False 

# result: True,False 
print True == 1 

# result: True 
print True + 2 
# result: 3 
print True + False*3 
# result: 1 

Beint 322 

# result: True 
print (1 < 3)*10 

# reuslt:; 10 


* 代 码 详 见 : 示例 程序 /code/2-3.py 


a 


到 目前 为 止 的 程序 都 是 一 条 一 条 语句 顺序 执行 的 ， 现 在 我 们 的 程序 开始 有 了 选择 和 判断 的 能 力 。if 语 句 能 够 设置 分 支 ， 有 且 只 有 1 条 分 支 会 被 执行 ， 这 和 我 们 日 常 语言 中 的 “如 果 ” 是 一 样 的 。if 语 句 的 
一 般 格式 如 下 : 


程序 会 先 计算 第 一 个 布尔 表达 式 ， 如 果 结 果 为 真 ， 则 执行 第 一 个 分 支 的 所 有 语句 。 如 果 为 假 ， 则 计算 第 二 个 布尔 表达 式 ， 如 果 第 二 个 布尔 表达 式 结果 为 真 ， 则 执行 第 二 个 分 支 的 所 有 语句 。 如 果 结 果 仍 
然 为 假 ， 则 执行 第 三 个 分 支 的 所 有 语句 。 如 果 只 有 两 个 分 支 ， 那 么 不 需要 elif， 直 接 写 else 即 可 ， 如 果 有 更 多 的 分 支 ， 那 么 就 需要 添加 更 多 的 elif 语 句 。Python 中 没有 switch 和 case 语 句 ， 多 路 分 支 只 能 通过 
if-elif-else 来 实现 。 注 意 整 个 分 支 结构 中 是 有 严格 的 退 格 缩 进 要 求 的 。 代 码 清单 2-3 给 出 一 些 例子 。 


代码 清单 2-3 条件 分 支 


Pint "条 件 分 支 " 

# 例 1 判断 天 气 

weather = "Sunny' 

if weather =='sunny': 

print "shopping" 

elif weather 'cloudy': 

print "playing football" 

else: 
print "learning python" 

#result: shopping 

# 例 2 选择 两 个 数 的 较 大 者 

import math 

a = math.pi 

b = math.sqgrt (9.5) 

if a>b: 

print a 

else: 
peinit b 

# result: 3.14159265359 

# 例 3 3 个 数 简单 排序 

first = 1 

second = 2 

third = 3 

if second<third: 

t = second 

second = third 

third = 七 

if first<second: 

t 二 Yt 


first = second 
second = 七 
if second<third: 
t = second 
second = third 

third = 七 

print first,'>',second,'>',third 
# result: 3>2>1 


* 代 码 详 见 : 示例 程序 /code/2-3.py 


2.3.2 while 循环 


1.while 语 和 名 


计算 机 比 人 类 思春 得 多 ， 但 计算 机 的 优势 是 它 能 够 无 休止 地 进行 计算 。2016 年 3 月 谷歌 的 人 工 智 能 机 器 AlphaGo 击 败 棋 力 世界 排名 前 十 的 李 世 石 ， 这 个 新 闻 引 起 了 强大 龙 动 。 很 多 人 不 理解 人 工 智 能 大 
何 能 够 超越 人 脑 。 可 以 这 样 简单 地 理解 ，AlphaGo 能 够 日 夜 不 停 地 自我 对 奔 ， 不 断 提高 实力 ， 而 且 和 速度 比 人 类 快 得 多 ， 它 的 胜利 是 可 以 预见 的 。 


回归 正题 ， 似 乎 我 们 现 有 的 知识 要 让 程序 重复 地 做 一 件 事 ， 就 只 能 重复 地 写 相 同 的 代码 ， 显 然 这 不 合理 。 为 此 ， 我 们 需要 掌握 一 个 重要 的 概念 一 一 循环 。while 循 环 是 最 常用 的 循环 之 一 ， 它 的 格式 如 
下 : 


while 布尔 表达 式 : 
程序 段 


只 要 布尔 表达 式 为 真 ， 那 么 程序 段 将 会 被 执行 ， 执 行 完 毕 后 ， 再 次 计算 布尔 表达 式 ， 如 果 结 果 仍 然 为 真 ， 那 么 再 次 执行 程序 段 ， 直 至 布尔 表达 式 为 假 。 举 一 个 例子 ， 如 果 要 计算 1 到 1000 的 和 是 多 少 ， 
那么 可 以 : 


当 a 为 0 时 while 循 环 便 会 自动 停止 并 且 s 就 是 求 和 的 结果 。 

2.break 和 continue 

下 面 看 两 个 简单 的 语句 ， 它 们 只 有 谍 套 在 循环 中 才 起 作用 ， 分 别 是 break 语 句 和 continue 语 句 。 它 们 的 作用 如 下 : 
break: 跳出 最 内 层 循 环 。 

continue: 跳 到 最 内 层 人 循环 的 首 行 。 


简单 来 涪 ，break 用 于 中 止 循环 ， 注 意 ， 如 果 一 个 while 语 句 风 套 在 另 一 个 while 语 句 内 ， 即 程序 中 有 双 层 循环 ， 内 层 循环 中 的 break 语 句 仅仅 退出 内 层 循环 并 回 到 外 层 循环 。 而 continue 语 句 是 中 断 当 前 
的 循环 并 回 到 循环 段 的 开头 重新 执行 程序 。 首 次 接触 continue 的 读者 可 能 比较 难 理解 ， 代 码 清单 2-4 举 出 了 一 些 例子 。 


代码 清单 2-4 ”while 语句 


print '''while 语 句 '"" 
# 例 1 1 到 1000 求 和 


#result: 500500 
# 例 2 简单 计算 
while True: 
s = input('1+2=") 
主人 “8: 千 =3 
print ' 答 案 正 确 ' 
break 
if s>=0 and S<=9 : 
continue 
print ' 答 案 是 个 位 数 ' 


* 代 码 详 见 : 示例 程序 /code/2-3.py 
2.3.3 for 循环 


for 循 环 在 Python 中 是 一 个 通用 的 序列 迭代 器 ， 可 以 遍历 任何 有 序 的 序列 。for 语 句 可 作用 于 字符 串 、 列 表 、 元 组 ， 这 些 数据 结构 在 2.4 节 将 会 详细 介绍 ， 本 节 我 们 的 例子 需要 用 到 这 些 数 据 结构 。 程 序 语 
言 的 学 习 是 一 个 循环 的 学 习 过 程 ， 与 其 他 学 科 不 同 ， 程 序 语言 的 知识 是 相互 紧 扣 的 。 读 者 阅读 本 节 有 困难 的 话 可 以 先 跳 到 2.4 节 。 


1.fori 语 句 


Python 中 的 for 语 句 接受 可 迭代 对 象 ， 如 序列 和 运 代 器 作为 其 参数 ， 每 次 循环 调 取 其 中 一 个 元 素 。 在 代码 清单 2-5 中 ， 我 们 给 出 了 for 循 环 对 字符 串 、 列 表 的 遍历 。 Python 的 for 循 环 看 上 去 像 伪 代 码 ， 非 
常 简 洁 ， 如 代码 清单 2-5 所 示 。 


代码 清单 2-5 ”for 语句 


print ! 07 简单 for 循 环 !0 
# 对 列表 和 字符 串 进 行 迁 代 


for a in ['e','f','g']: 
DFINt ay 

# result:e f g 

print 

tor a i "atrirg 
print ay 


# result:string 


* 代 码 详 见 : 示例 程序 /code/2-3.py 


2.range () 国 数 


如 果 你 希望 Python 能 像 C 语 言 的 格式 进行 循环 ， 就 需要 一 个 数字 序列 ，range () 函数 能 够 快速 生成 一 个 数字 序列 。 如 : 


>>>range (5) 


[oy L203x4] 
那么 Python 中 for i in range (5) 的 效果 和 C 中 for (i=0; i< 5; i++) 的 效果 是 一 样 的。 而 range (a，b) 能 够 返回 列表 [a，a+1，...，b-1] (注意 不 包含 b) ， 这 样 for 循 环 就 可 以 从 任意 起 点 开始 ， 
任意 终点 结束 。range () 函数 经 常 和 len () 函数 一 起 用 于 遍历 整个 序列 。len () 遂 数 能 够 返回 一 个 序列 的 长 度 ，for i in range (len (L) ) 能 够 迭代 整个 列表 L。 虽 然 直 接 使 用 for 循 环 似乎 也 可 以 实现 这 


个 目的 ， 但 是 直接 使 用 for 循 环 难以 对 序列 进行 修改 (因为 每 次 迭代 调 取 的 元 素 并 不 是 序列 元 素 的 引用 ) ， 而 通过 range () 和 len () 函数 可 以 快速 通过 索引 访问 序列 并 对 其 进行 修改 。 请 看 下 面 的 代码 清单 
2-6: 


代码 清单 2-6 range () 函数 


print '''range() 轴 数 "'' 

print range (2,9) 

# result: [2, 3, 4, 
print range (2,9,3) 

# result: [2, 5, 8] 
print ="*70 
# 直接 使 用 for 循 环 难以 改变 序列 元 素 
li [p27 

for a in L: 

a+=1]  #a 不 是 引用 ， 工 中 对 应 的 元 素 没 有 发 生 改 变 
print 工 

# result: [17273] 

# range () 与 Jen () 函数 遍历 序列 并 修改 元 素 

for i in range (Len (L) ) : 

LIi]+=1 # 通 过 索引 访问 

Brint 五 

# result: [2,3,4] 


5, 6, 7, 8] 
# 相 邻 元 素 的 间隔 为 3 


* 代 码 详 见 : 示例 程序 /code/2-3.py 
3. 循 环 中 的 else 语 句 


for 循 环 同样 支持 break 和 continue 语 句 。 循 环 语句 可 以 有 一 个 else 语 句 ， 当 for 循 环 迭 代 整 个 列表 后 或 while 循 环 条 件 变 为 假 时 ， 循 环 并 非 通 过 break 语 句 终止 时 ， 便 会 执行 这 个 else 语 句 。 下 面 给 出 一 个 
实现 简单 搜索 质数 的 例子 ( 见 代码 清单 2-7) 。 


代码 清单 2-7 循环 中 的 else 语 句 


print ! 7 循环 中 的 else 语 名 50 
# 简单 搜索 质数 
for n in range(2,10): 
for x in range (2,n): 
if ngsx ==0: # 含有 非 普 通 因子 
print n,'equals',x,'*',n/x 

break 

else: 
print ny ' 是 一 个 质数 ' # 仅 含 有 普通 因子 ， 说 明 这 是 一 个 质数 


* 代 码 详 见 : 示例 程序 /code/2-3.py 


2.4 数据 结构 


Python 中 的 绝 大 部 分 数据 结构 可 以 被 最 终 分 解 为 三 种 类 型 : 标量 (Scaler) ， 序 列 (Sequence) ， 了 映射 (Mapping) 。 这 表明 了 数据 存储 时 所 需 的 基本 单位 ， 其 重要 性 如 同 欧式 几何 公理 之 于 欧式 空 
间 。 在 第 2.2 节 中 ， 我 们 已 经 详细 叙述 了 “标量 ”， 如 整数 、 浮 点 数 等 数据 类 型 。 这 里 需要 补充 更 为 复杂 的 数据 结构 。 


序列 是 Python 中 最 为 基础 的 内 建 类 型 。 它 分 为 七 种 类 型 : 列表 、 字 符 串 、 元 组 、Unicode 字 符 串 、 字 节 数 组 、 缓 冲 区 和 xrange 对 象 。 常 用 的 是 : 列表 (List) 、 字 符 串 (String) 、 元 组 (Tuple) 。 
映射 在 Python 的 实现 是 数据 结构 字典 (Dictionary) 。 作 为 第 三 种 基本 单位 ， 映 射 的 灵活 使 得 它 在 多 种 场合 中 都 有 广泛 的 应 用 和 良好 的 可 拓展 性 。 
集合 (Set) 是 独立 于 标量 、 序 列 和 映射 之 外 的 特殊 数据 结构 ， 它 支持 数学 理论 的 各 种 集合 的 运算 。 它 的 存在 使 得 用 程序 代码 实现 数学 理论 变 得 方便 。 


建议 有 能 力 的 读者 查看 Python 数据 结构 实现 的 源码 ， 也 可 以 参考 《Data Structure and Algorithms with Python》 这 本 书 。 这 能 让 读者 很 好 认识 Python 每 种 数据 结构 的 实现 算法 及 效率 。 工 业 代 码 讲 
求 运行 效率 ， 本 书 由 于 篇 幅 限制 仅仅 介绍 Python 数 据 结 构 的 用 法 ， 不 涉及 时 间 复 杂 度 和 空间 复杂 度 ， 我 们 极力 建议 读者 补充 这 方面 的 知识 。 


2.4.1 列表 


列表 (List) 是 一 个 任意 类 型 的 对 象 的 位 置 相 关 的 有 序 集合 。 它 没有 固定 的 大 小 ， 更 准确 地 说 ， 它 的 大 小 是 可 变 的 。 通 过 对 偏 移 量 进行 赋值 以 及 其 他 各 种 列表 的 方法 进行 调用 ， 能 够 修改 列表 的 大 小 和 内 


谷 。 
1. 创 建 列表 


列表 是 序列 的 一 种 ，Python 的 列表 元 素 没有 固定 数据 类 型 的 约束 。 列 表 是 有 序 的 ， 可 以 直接 通过 下 标 (〈 即 索引 ) 访问 其 元 素 。 注 意 下 标 是 从 0 开始 ，Python 的 下 标 允 许 是 负数 ， 例 如 List2[-1] 表 示 List2 
从 后 往 前 数 的 第 一 个 元 素 。 除 了 索引 ， 列 表 支 持 切片 。 切 片 返回 一 个 子 列表 。 切 片 的 索引 有 两 个 默认 值 ， 第 一 个 索引 默认 为 零 ， 第 二 个 索引 默认 为 切片 的 列表 的 大 小 。 代 码 见 代码 清单 2-8。 


代码 清单 2-8 ”创建 列表 


print 11 ! 创 建 列表 ! 11 

Listl= ['Python',5,0.2] 
List2=['I','love'] 

Print "通过 下 标 访问 列表 元 素 " 

print Listl[l0l,.List211];yList2[=1] 
# result: Python love love 
print List1[0:2],List1l[:2] # 注 意 子 列表 不 包含 List1[2] 
# result:['Python', 5] ['Python', 5] 
Blnt LiSt2| :1Dist2[0:1 

# result:['I', '‘'love'] ['I', 'love'] 


* 代 码 详 见 : 示例 程序 /code/2-4-1.py 


2. 列 表 方 法 


Python 的 列表 与 其 他 语言 的 数组 有 些 类 似 ， 但 是 Python 的 列表 强大 得 多 ， 它 具有 很 多 灵活 的 函数 。 它 能 够 做 到 像 字符 串 一 样 自由 插入 、 查 找 、 合 并 。 并 且 与 其 他 语言 ， 如 C、Java 等 相 比 ，Python 的 


列表 常常 具有 速度 上 的 优势 。 下 面 给 出 Python 常用 的 列表 函数 说 明 ( 见 表 2-6) 及 例子 ( 见 代码 清单 2-9) 


函数 名 称 
list.append(x) 
list.extend(L) 
list.insert(1, Xx) 


list.remove(Xx) 


list.pop([1]) 


list.index(x) 
list.count(x) 


list.sort(cmp=None, 


key=None, reverse=False) 


list.reverse() 


数 ， 将 删除 并 返回 列表 最 后 
一 个 值 为 x 的 元 系 的 下 标 。 如 宋 没 有 这 样 的 元 素 会 报错 


表 2-6 列表 有 函数 说 明 


， 请 读者 运 


例子 好 好 体会 。 


函数 说 明 


添加 一 个 元 素 到 列表 的 末尾 ， 相 当 于 allen(a):]=[x] 
将 参数 中 的 列表 添加 到 目 身 的 列表 的 末尾 ， 相 当 于 allen(a):]=L 


在 下 标 为 i 的 元 系 位 置 前 搬入 


一 个 元 系 ， 所 以 a.insert(0，x) 相当 于 a.append(x) 


删除 列表 第 一 个 值 为 x 的 元 素 。 如 果 没 有 这 样 的 元 素 会 报错 


删除 列表 指定 位 置 的 元 系 并 返回 
返回 列表 第 一 
返回 列表 中 x 出 现 的 次 数 

排序 列表 中 的 元 素 ， 可 参考 2.4.4 市 


明 数 的 例子 


反 转 列表 中 的 元 系 


它 。[] 表示 这 个 参数 是 可 选 的 ， 如 果 不 输入 这 个 
一 个 元 系 


字典 遍历 的 代码 ， 里 面 讲 述 了 一 个 使 用 sort0 


代码 清单 2-9 ”列表 多 种 操作 


print ''' 列 表 方 法 ''' 
Listl1.append (3.1) 
print List] 


# result: ['Python', 5, 0.2, 3.1] 
List2.insert (1,'really') 


# result: [ 'really', 'love'] 


a oven 1) 


[Python '， b> 022 
| Ey index (5), Listl1.count (5) 


. ss (List1) 
print List2 


已 
EE 
Cn 
DD 
(0 


'really', ‘'love', ‘'Python', 5, 0.2] 


List2.reverse() 


1t: [0.2, 5, 
List3.S0rt() 


'Python', ‘love', '‘'really', ‘'I'|] 


Us 

* 代 码 详 见 : 示例 程序 /code/2-4-1.py 

3. 列 表 用 作 栈 和 队列 

列表 函数 使 得 列表 当 作 材 非 常 容 易 ， 栈 的 思想 是 


最 先进 入 的 元 素 最 后 一 个 取出 (后 进 后 出 ) ， 使 用 append () 进行 压 入 ， 使 用 pop (〈) 进行 弹出 。 见 代码 清单 2-10。 


代码 清单 2-10 ”列表 用 作 栈 


print ! 7 列 ee 
st 网， 85 

stack. i 
stack.append (11) 
print stack#result: 
St 

p 


[7Y2859; T0011 
tack.pop () 
rint stack#result: 


[7,8,9,10] 


队列 的 思想 是 第 一 个 最 先进 入 的 元 素 最 先 取 出 ， 虽 然 列 表 的 append () 和 pop () 也 可 以 实现 此 目的 。 但 是 列表 用 作 此 目的 的 效率 不 高 。 这 是 因为 列表 末尾 插入 元 素 效率 高 但 开头 弹出 元 素 的 效率 却 很 
低 (所 有 其 他 元 素 都 必须 后 移 一 位 ) 。 如 果 要 实现 一 个 队列 ,可 以 使 用 collections.deque， 他 设计 的 目的 就 是 能 够 在 两 端 快速 添加 和 弹出 元 素 。 例 子 见 代 码 清单 2-11。 


代码 清单 2-11 deque 队 列 


print "deque 用 作 队 列 " 

from collections import deque 
queue = deque ([7,8,91) 
cueue .append (10) 

queue .append (11) 

print queue.popleft () # 开头 弹出 元 素 7 
print queue.popleft () # 开头 弹出 元 素 8 
print queue 


# result: deque([9, 10, 11]) 


# 末尾 插入 元 素 10 
# 末尾 插入 元 素 11 


* 代 码 详 见 : 示例 程序 /code/2-4-1.py 


2.4.2 ”字符 串 


字符 串 (String) 是 序列 的 一 种 ， 支 持 其 中 索引 的 操作 。 实 际 上 ， 字 符 串 是 单个 字符 的 序列 ， 简 单 地 理解 ， 字 符 串 是 多 个 单个 字符 合并 而 来 的 。 在 所 有 编程 语言 中 ， 字 符 串 都 是 最 
一 。 在 Python 之 中 ， 字 符 串 灵活 的 方法 大 大 简化 了 程序 。 


基本 的 数据 结构 之 


1. 创 建 字 符 串 


虽然 字符 串 和 列表 都 可 以 通过 [来 访问 其 中 的 有 序数 据 ， 但 是 字符 串 具 有 不 可 变性 ， 每 个 字符 一 旦 创建 ， 不 能 通过 索引 对 其 做 任何 修改 。 字 符 串 与 列表 一 样 ， 支 持 索 引 和 切片 。 创 建 字符 串 最 简单 的 是 用 


单 引 号 或 双 引 号 ， 这 两 种 方法 几乎 没有 区 别 。 如 果 你 的 字符 串 内 有 单 引号 ， 那 么 创建 字符 串 时 就 可 用 双 引 号 避免 歧义 ， 反 之 亦 然 。 字 符 串 支 持 跨 行 ， 一 种 常用 的 方法 是 使 用 三 引号 : "..."' 或 者 ""..."""。 行 
尾 换行 符 会 被 自动 包含 到 字符 串 中 ， 但 可 以 在 行 尾 如 上 耸 ” 来 避免 这 个 行为 。 代 码 例子 见 代 码 清单 2-12。 

代码 清单 2-12 ”创建 字符 串 

print ''' 创 建 字符 束 '"!' 

strl = 'learn Python' 

print strl,strl1[0],strl[-1] # 输 出 整个 字符 串 ， 第 一 个 字符 ， 最 后 一 个 字符 

# result:learn Python,l,n 

print strl[:6] # 切 片 

# result:learn 

# str1[0] = "'h"， 程序 报错 ， 不 允许 修改 字符 串 

Print ="*?0 

print '"Hello,my name is Mike"' # 当 字符 串 中 有 双 引 号 ， 最 好 用 单 引号 创建 

# result:"Hello,my name is Mike" 

print 'doesn\'t' #W 果 用 单 引 号 创建 有 单 引 号 的 字符 串 ， 字 符 串 中 的 单 引 号 前 加 上 \ 

# result:doesn\'t 

Berint, “="*70 

str2 = " "Python 具有 丰富 和 强大 的 库 。 它 常 被 昵称 为 胶水 语言 ， 能 够 把 用 其 他 语言 制作 的 各 种 模块 (尤其 是 C/C++) 很 轻松 地 联结 在 一 起 。 常 见 的 一 种 应 用 情形 是 ， 使 用 Python 快速 生成 程序 的 原型 (有 时 甚至 是 程序 的 最 终 界 

print str2 

str3 = '''Python 具 有 丰富 和 强大 的 库 。 它 常 被 昵称 为 胶水 语言 , \ 能 够 把 用 其 他 语言 制作 的 各 种 模块 (尤其 是 C/C++) 很 轻松 地 联结 在 一 起 。 常 见 的 一 种 应 用 情形 是 ， 使 用 Python 快速 生成 程序 的 原型 (有 时 甚至 是 程序 的 最 终 轩 

print str3 

# 输出 太 长 这 里 就 不 展示 了 ， 请 读者 动手 运行 感受 Str2 与 Str3 的 不 同 

Pelnt,. "= "wy0 


* 代 码 详 见 : 示例 程序 /code/2-4-2.py 
如 果 你 的 字符 捉 包含 了 特殊 字符 ， 如 换行 符 人 ^\n”， 制 表 符 “t”，Python 默 认 会 自动 识别 并 转 义 。 如 果 你 想 使 用 不 经 转 义 的 原始 字符 串 ， 须 在 字符 串 前 面 加 r， 见 代码 清单 2-13。 


代码 清单 2-13 ”特殊 字符 转 义 


print 'E:\note\Python.doc'  #Nn 会 被 当 作 换行 符 处 理 

# result:E: 

ote\Python.doc 

print r'E:\note\Python.doc' # 字 符 串 前 加 rr， 所 以 特殊 字符 失效 
# result:E:\note\Python.doc 


* 代 码 详 见 : 示例 程序 /code/2-4-2.py 


Python 可 用 “+” 合 并 字符 串 ， 用 C++ 语言 说 ，Python 重 载 了 “+” 运 算 符 ， 这 使 得 字符 串 的 合并 相当 方便 。Python 支 持 格式 化 字符 串 ，“%” 的 左 侧 放置 一 个 字符 串 ， 简 单 的 格式 化 字符 串 ， 而 右 


侧 则 放置 希望 格式 化 的 值 ， 一 般 会 使 用 元 组 (后面 会 详细 介绍 ) 。 由 于 这 个 功能 不 太 重 用 ， 本 书 只 举 一 些 简单 的 例子 ， 如 代码 清单 2-14 所 示 。 


代码 清单 2-14 “+” 运算 符 及 格式 化 字符 申 


str4 = 'String\t" 
str5 = 'is powerful' 
str4 = str4+str5 


# 不 会 报错 ， 实际 上 这 不 是 修改 str4， 而 是 先 消 去 现 有 的 Str4， 再 用 "+" 返 回 的 新 的 合并 后 的 字符 串 去 重新 创建 Str4 
print str4 
# result:String is powerful 


DEL C=" 0 
format strl = 'There are %d apples $s the desk.' # 8%q 表 示 整 数 而 $s 表 示 字 符 串 
a tuple = (2,'0n') 


© 


print format strl % a tuple 

# result:There are 2 apples on the desk. 

format str2 = 'There are {0} apples {1} the desk."'.format (3,'on') 
print format str2  # 这 是 另 一 种 写法 ,更 简便 
# result:There are 3 apples on the desk. 


* 代 码 详 见 : 示例 程序 /code/2-4-2.py 


2. 字 符 串 方法 


Python 字符 串 方法 众多 ， 能 够 满足 程序 员 的 各 种 要 求 。 表 2-7 仅 仅 列 出 一 些 读者 必须 掌握 的 最 重要 的 方法 ， 相 应 的 例子 见 代 码 清单 2-15。 值 得 注意 的 是 ，count 和 join 方法 在 列表 和 字符 串 中 都 存在 ， 且 


功能 类 似 。 实 际 上 序列 都 会 有 共通 的 方法 ， 读 者 在 学 习 的 时 候 要 注意 系统 归 类 。 


表 2.7 字符 囊 方法 


函数 名 称 


S.find(sub,|,start[,end|]) 


S.split([sep[,maxsplit]]) 


S.Jon(iterator) 


S.strip([chars]) 
S.lower() 


S.1salnum!() 


S.count(sub|,start[,end]|]) 


S.replace(old,newl[,count]) 


代码 清单 2-15 ”字符 串 方法 


函数 说 明 
回 在 字符 串 中 找到 的 子 字符 串 sub 的 最 低 索 3 引 ， 
中 ， 如 果 示 找到 sub， 则 返回 -1 
字符 串 中 的 单词 列表 ,使 用 sep 作为 分 隔 符 字 
至 多 拆 分 maxsplit 次 (因此 ,列表 中 将 最 多 有 maxsplit+1 个 元 素 )。 
maxsplit 或 为 -1， 那 么 分 割 的 数量 没有 限制 (进行 所 有 可 能 的 分 割 |) 
连接 字符 串 数 组 。 将 字符 串 、 元 组 、 列 表 中 的 元 系 以 指定 的 字符 (分 隅 从 ) 连接 
生成 一 个 新 的 字符 串 
字符 串 的 一 个 副本 ， 
移 除 的 字符 集 。 如 果 省 略 或 为 None， 
将 字符 串 中 所 有 大 与 字 0 
如 有 果 字 符 串 中 人 至少 有 一 个 字符 ， 并 且 所 有 了 字 
否则 返回 false 
返回 在 [start, end] 范围 内 的 子 串 sub 非 重 和 登 出 现 的 次 数 。 可 选 
以 切片 表示 法 解释 
返回 字符 串 的 一 个 拷贝， 
效 count， 则 只 有 前 面 的 count 


使 得 sub 包含 在 切 卢 s[start:end] 


人 符 串 。 如 果 给 出 maxsplit， 则 
如 果 没 有 指定 


删除 前 导 和 尾随 字符 。chars 参数 是 一 个 字符 串 ， 指 定 要 
则 chars 参数 默认 为 删除 空白 字符 
人 竺 都 是 数字 或 者 字母 ， 则 返回 true， 


参数 start 和 end 都 


其 中 所 有 的 子 串 old 通过 new 替换 。 如 果 指 定 了 可 选 参 


个 出 现 被 督 换 


print 1'11 字 符 串 方法 '"'' 

str6 = "Zootopia" 

print str6.find('to')# 返回 第 一 个 to 的 索引 ， 注 意 str6[3] 
# result: 3 

Drint “= ‘9 


str62= "2ooto ? i ay 3 2 ee 


#result: [有 


= 


利用 空格 符 分 隔 开 字符 


"七 "v 'p" 
' .join(str6 2:: 人 # ER 


列表 的 join， 这 个 是 字符 串 的 join 功能 类 似 


print 
# result: Zootopia 

prt 类 了 DO 

str7 = Ba 

print '>'.join(str7) # 上 一 个 例子 是 

# result: 5>4>3>2>1 

Deint "="w70 

str8 = '"Yes!",I answered. 

print str8.split(',')# Spiit 0 可 以 指定 一 个 字符 作为 分 隔 符 
# result:['"Yes!"', 'I answered.'] 

上 如 果 想 把 多 个 字符 作为 分 也 人， 可 用 下 面 这 个 方法 

sep=[ :vv 


for i in sep: 
str8 = str8.replace (i,' 


print str8.split() 并 沪 提取 身子 中 的 所 有 音 
# result:['Yes', 'I', 'answered'] 

Print "="*7?0 

str9 = 'A apple' 

print str9.count ('A') # 注意 区 分 大 小 写 

# result: 1 

str9 = str9.1lower () 


print str9.ooumnt{"a’) 
J] 七: 没 

Lt =* 0 

L2345" 

print str10.isalnum() 


* 代 码 详 见 : 示例 程序 /code/2-4-2.py 
3.Unicode 字 符 串 


Unicode 是 一 种 存储 文本 数据 的 类 


古代 的 每 一 种 字符 (包括 英文 字符 和 中 文字 符 等 ) 提供 了 统一 的 序号 。 在 Unicode 出 现 之 前 ， 脚 本 只 有 256 个 可 用 的 字符 编码 。 各 国 的 文字 需要 映射 到 字符 编码 上 ， 
从 而 解决 了 这 些 问题 。 


Unicode 为 所 有 脚本 定义 了 一 个 代码 页 ， 


创建 Unicode 字 符 串 只 需 
的 “你 好 ”。 


在 字符 串 前 加 u 即 可 。 在 代码 清单 2-16 中 ， 由 于 “你 ” 


)# 将 全 部 分 隔 符 替换 为 空格 


型 。Python 能 够 使 用 Unicode 对 象 来 存储 和 处 理 Unicode 数 据 。Unicode 对 象 与 其 他 字符 串 对 象 有 良好 的 集成 ， 必 要 时 提供 自动 转换 。Unicode 的 优点 在 于 为 现在 和 
这 带 来 了 很 多 麻烦 ， 尤 其 是 软件 国际 化 。 


的 Unicode 的 编码 是 4f60， 


在 Python， 将 Unicode 转 化 为 比较 有 和 名 的 编码 如 ASCIl、utf-8、utf-16 以 及 中 文 的 gbk 编 码 都 是 很 方便 的 。encode () 函数 能 够 将 Unicode 字 符 串 转换 为 指定 编码 的 字符 串 ，decode () 或 
unicode () 国 数 又 可 以 反 过 来 将 指定 编码 的 字符 串 转 换 为 Unicode 字 符 串 ， 例 子 见 代码 清单 2-16。 


代码 清单 2-16 Unicode 字符 串 


print '''Unicode 字 符 束 '"' 
unicode str = u'\u4f60\u597d' 


print unicode str #" 你 好 "的 Unicode 编 码 
# result:; 你 好 
utf8 str = unicode str.encode('utf-8') 
Prin St 


utf8 
意 "你 好 "的 utf-8 编 码 为 '\xe4\xbd\xa0\xe5\xa5\xbd' (在 Python Shell 中 直接 输入 utf8 str 会 显示 这 个 编码 ) 


# 但 是 print () 函数 不 会 自动 解码 ， ， 以 直接 输出 为 乱码 


print utf8 str.decode('utf-8 

# result: 你 好 

print unicode (utf8 str 'utf-8') # 这 两 种 方法 一 样 
# result: 你 

* 代 码 详 见 : 示例 程序 /code/2-4-2.py 


“好 ”的 Unicode 编 码 是 597d， 我 们 可 以 看 到 输入 print UNu4f60\u597d 就 可 以 看 到 中 文 


2.4.3 ”元 组 


元 组 (Tuple) 与 列表 和 字符 串 一 样 ， 是 序列 的 一 种 。 而 元 组 与 列表 的 唯一 不 同 是 元 组 不 能 修改 ， 元 组 和 字符 串 都 具有 不 可 变性 。 
1. 创 建 元 组 


元 组 没有 固定 的 数据 类 型 约束 ， 它 们 编写 在 圆 括号 中 而 不 是 方 括号 中 ， 它 们 支持 常见 的 序列 操作 。 元 组 有 很 多 与 列表 相同 的 方法 ， 但 必须 留意 的 是 ，append () 和 pop () 等 修改 大 小 和 内 容 的 国 数 是 
元 组 不 允许 的 ， 如 代码 清单 2-17 所 示 。 


代码 清单 2-17 创建 元 组 


print 时 | 

tuplel = ('A', ' 我 ') 

print len (tuplel) 

# result: 2 

tuple2 = tuplel+(6,6,' 的 ') 

print tuple2 

# 注意 "我 "在 机 子 系 统 中 的 中 文 默认 编码 是 cp936， 可 以 使 用 ' 中 文 '.decode ('cp936') 转 为 Unicode 编 码 
# result:['A', '\xce\xd2', 6, 6, '\xb5\xc4'] 

tuplel = ('A', ' 我 ' .decode ('cp936')) 

print tuplel 

# result: ('A', u’'\u6211°) 

tuple3 =(1,) # 创建 仅 有 一 个 数据 的 元 组 

print tuple3 

# result: (1,) 

tuple4 = 3*(1+9,) # 一 个 过 号 完全 下 不 了 表达 式 的 值 
print tupled4 

# result: (6, 6, 6) 

print tuple (list (tuple4)) #tuple 函 数 可 以 将 其 他 序列 类 型 转变 为 元 组 
# result: (6, 6, 6) 

print tuple4[0] # 同样 可 以 使 用 索引 

tuple4[0] = 7 # 错 误 ， 不 能 改变 元 组 的 数据 

print tuple4.count (6) # 同样 有 count () 函数 

# result: 3 


* 代 码 详 见 : 示例 程序 /code/2-4-3.py 
2. 元 组 的 必要 性 


读者 可 能 会 存在 这 样 的 疑惑 : 既然 有 列表 的 存在 ， 为 什么 还 需要 像 元 组 那样 的 不 可 变 序 列 ? 在 初学 编程 语言 的 人 看 来 ， 不 可 变 似乎 是 一 种 缺陷 。 但 是 ， 元 组 的 不 可 变性 是 关键 ， 从 某 个 角度 说 是 它 的 天 
然 优 势 。 例 如 Python 的 字典 〈 后 面 会 详细 介绍 ) 允许 元 组 和 字符 串 作为 键 值 ， 但 不 允许 列表 作为 键 值 。 原 因 就 是 元 组 和 字符 串 的 不 可 变性 ， 字 典 的 键 值 是 必须 保证 唯一 的 ， 如 果 人 允许 修改 键 值 ， 那 么 唯一 性 
就 无 法 保证 。 元 组 提供 了 一 种 完整 性 约束 ， 这 对 于 大 型 程序 的 编写 是 很 重要 的 。 有 时 候 程序 员 不 希望 程序 中 的 某 个 值 被 修改 ， 为 了 避免 我 们 不 经 意 地 修改 这 些 内 容 (实际 上 在 大 型 程序 中 经 常 发 生 ) ， 就 应 
该 使 用 元 组 而 非 列表 。 


1 


字典 (Dictionary) 是 基础 数据 结构 映射 (Mapping) 的 一 种 。 序 列 是 按照 顺序 来 存储 数据 的 ， 而 字典 是 通过 键 存 储 数据 的 。 字 典 的 内 部 实现 是 基于 二 又 树 (Binary Tree) 的 ， 数 据 没有 严格 的 顺序 。 

字典 将 键 映射 到 值 ， 通 过 键 来 调 取 数 据 。 如 果 键 值 本 来 是 有 序 的 ， 那 么 我 们 不 应 该 使 用 字典 ， 如 映射 : :3 直接 用 列表 [A'，'B'，'C'] 即 可 ， 字 典 的 效率 比 列 表 差 得 多 。 但 是 在 很 多 情形 下 ， 字 典 比 列 表 更 

加 适用 。 比 如 我 们 手机 的 通讯 录 (假设 人 名 均 不 相同 ) 可 以 使 用 字典 实现 ， 把 人 的 名 字 映 射 到 一 个 电话 号 码 ， 名 字 是 无 序 的 ， 所 以 不 能 直接 用 一 个 列表 实现 。 
1. 字 典 的 创建 与 操作 


字典 最 基本 的 创建 方式 是 : 


category = {'apple':'fruit','Zootopia':'film','football':"'sport"'} 


字典 内 部 是 一 系列 的 “ 键 : 值 ” 对 ,一 组 中 的 键 与 值 用 “: ”分 隔 开 ， 不 同 组 的 键 值 对 用 “， ”分 割 开 ， 整 个 字典 用 大 括号 括 起 来 。 上 面 的 例子 创建 了 一 个 所 属 类 别 的 字典 。 字 典 是 无 序 的 ， 键 值 与 声 
明 的 顺序 没有 关系 。 另 外 一 种 常用 的 创建 字典 方法 是 使 用 元 组 和 dict () 函数 ， 例 子 见 代码 清单 2-18。 空 字典 直接 用 0 创建 即 可 。 


字典 的 基本 操作 非常 简单 ， 假 定 有 字典 D: 
1) 查询 键 值 对 D[keyj] 并 返回 键 key 关 联 的 值 。 

2) 修改 键 值 对 DIkey]=new_value， 将 值 new_value 关 联 到 key 上 ， 

3) 插入 键 值 对 DInew_key]=new_value， 如 果 字 典 中 不 存在 键 new_key， 如 此 操作 便 增加 了 键 值 对 。 
4) 删除 键 值 对 del DIkey]， 删 除 键 为 key 的 键 值 对 。 


代码 清单 2-18 字典 的 创建 与 操作 


Print ''' 字 典 创建 与 操作 '' 1 

category = {'apple':'fruit','Zootopia':'film','football':"'sport"'} 

print category['apple'] # 查询 键 值 对 

# result: fruit 

category['lemon'] = 'fruit' # 插入 新 的 键 值 对 

print category 

# result: {'Zootopia': 'film', '‘'lemon': ‘'fruit', '‘'apple': ‘'fruit', 'football': 'sport"'} 
del category['lemon'] # 删除 键 值 对 

print category 

# result: {'Zootopia': 'film', ‘'apple': ‘'fruit', '‘'football': 'sport"'} 
rint "="*70 

items=[('height',1.80), ('weight"',124)] # 也 可 以 通过 元 组 和 dict () 创建 字典 
D = dict (items) 

print D 

# result: {'weight': 124, 'height': 1.8} 

print ="*?70 


* 代 码 详 见 : 示例 程序 /code/2-4-4.py 
2. 字 典 的 遍历 


& 管 字典 是 无 序 的 ， 但 是 有 时 候 我 们 需要 将 它 按照 一 定 的 规则 打印 出 来 。 一 个 经 典 的 办 法 是 首先 获取 字典 所 有 键 ， 并 将 它们 存储 在 列表 中 ， 然 后 对 列表 按照 某 种 偏 序 关系 进行 排序 ， 最 后 按 排序 后 的 结 


果 逐 一 对 字典 进行 查询 并 打印 。 代 码 清单 2-19 显 示 了 按照 不 同 的 偏 序 关系 对 字典 进行 遍历 的 结果 。 


代码 清单 2-19 ”字典 的 遍历 


print 11 ! 字 典 的 遍历 rr 
keys = category.keys() 
keys.sort 
print keys # 按照 首 字符 的 ASCII 码 排序 
# result: ['zootopia', 'football', 'apple'] 
keys.sort (reverse=True) 
print keys # 排序 结果 反 转 
# result: ['zootopia', 'football', 'apple'] 
# result: 
def comp (str1 str2): # 两 个 字符 串 的 比较 函数 

if str1[0]<str2[0] : # 如 果 str1l 的 首 字符 比 str2 首 字符 的 ASCII 值 小 ， 那 么 strl 排 在 str2 前 ， 否 则 排 在 后 面 

return 1 
else: 
return -1 

keys. sort (comp) # 自 定义 偏 序 关系 ， 同 样 实现 反 向 排序 
print keys 
# result: ['zootopia', 'football', 'apple'] 
for key in keys: # 最 后 按照 反 向 排序 的 顺序 打印 字典 

print (key '=>',category[keyl]) 
# result: 

(" Zootopia'， '=>', ‘'film') 


# 
# ('football', '=>', 'sport') 
# ('apple', '=>', 'fruit') 


* 代 码 详 见 : 示例 程序 /code/2-4-4.py 


2.4.5 ”集合 


Python 有 一 种 特殊 的 数据 类 型 称 为 集合 (Set) 。 之 所 以 称 它 特殊 ， 是 因为 它 既 不 是 序列 也 不 是 映射 类 型 ， 更 不 是 标量 。 集 合 是 自 成 一 体 的 类 型 。 集 合 是 唯一 的 ， 不 可 变 的 对 象 是 一 个 无 序 集合 。 集 合 
对 象 支持 与 数学 理论 相对 应 的 操作 ， 如 并 和 交 ， 这 也 是 这 种 数据 类 型 被 创建 的 最 重要 的 目的 。 


1. 创 建 集合 
创建 一 个 集合 很 简单 ， 只 要 在 声明 集合 时 把 集合 的 元 素 包含 在 大 括号 内 ， 并 用 逗号 分 隔 。 还 有 一 种 方法 是 使 用 set () 函数 ， 通 过 一 个 列表 或 元 组 创建 集合 ， 见 代码 清单 2-20。 


代码 清单 2-20 ”创建 集合 


# -*- coding:utf-8 —*— 


print 111 创 建 集合 '"'' 

Setl = {Ly2;3 # 直接 创建 集合 
set2 = set([2,3,4]) # set () 创建 
print setl, set2 


上 


# result: set{[l1, 2, 3]) set([2, 3, 4]) 


* 代 码 详 见 : 示例 程序 /code/2-4-5.py 
2. 集 合 的 操作 


集合 能 够 通过 表达 式 操 作 符 支持 一 般 的 数学 集合 运算 ， 如 表 2-8 所 示 (假设 集合 x=set ([1，2，3]) ，y=set ([2，3， 省 ) 。 这 是 集合 特有 的 操作 ， 序 列 和 映射 不 支持 这 样 的 表达 式 。 


来 意 》 
X 一 y set ([1]) 集合 的 差 ， 返 回 包含 在 x 且 不 包含 在 y 中 的 元 素 集合 
x|y set ([1, 2, 3, 4]) 集合 的 并 ， 返回 包含 在 x 或 y 中 的 元 素 集 合 

) 集合 的 交 ， 返 回 既 包含 在 x 也 在 y 的 中 的 元 素 的 集合 
xy set ([1, 4]) 集合 的 异 或 ， 返 回 只 被 x 包含 或 只 被 y 包含 的 元 素 的 集合 


es 如 果真 包含 "， 刚 返回 True， 否 则 返回 False 


除 此 之 外 ， 和 集合 还 有 一 些 常用 的 方法 ， 见 表 2-9。 由 于 这 些 方法 都 比较 简单 ， 本 书 不 再 歼 述 。 值 得 提醒 的 是 ， 如 果 集 合 中 已 经 有 元 素 a， 使 用 add () 函数 或 其 他 方法 向 集合 再 次 插入 元 素 a，Python 不 
会 报错 ， 但 集合 依然 只 有 一 个 a， 集 合 中 的 元 素 都 是 唯一 的 。 


表 


迪 
Tl 
nj 


表 2-9 集合 的 方法 


油 数 名 称 函数 说 明 
set.add (x) 住 集合 搬入 元 系 Xx 
setl.update (Set2 ) 把 集合 set2 的 元 素 添加 到 setl 
set.remove (x) 删除 集合 中 的 元 系 x 
setl.union (Set2 ) 相当 于 setl = setl | set2 
setl.intersection (set2 )| 相当 于 setl = setl &set2 
setl.difference (set2 ) | 相当 与 setl= setl 一 set 2 
setl.issuperset (set2 ) | 相当 于 setl>=set2 


2.5 ”文件 的 读 写 


文件 访问 是 一 门 语言 重要 的 一 环 ， 适 当地 进行 文本 读 写 能 够 保存 一 次 程序 运行 下 来 的 结果 。 在 数据 挖掘 的 工作 中 ， 数 据 量 很 大 ， 整 个 挖掘 程序 可 以 分 为 几 部 分 ， 我 们 应 该 把 每 一 部 分 运行 的 结果 都 保存 
下 来 ， 这 样 如 果 后 面 的 程序 出 现 错误 ， 我 们 也 不 必 再 从 头 开始 。 而 数据 挖掘 中 最 普遍 的 是 对 txt、csv 等 文件 进行 读 写 处 理 。 
2.5.1 改变 工作 目录 


要 进行 文件 的 读 写 ， 首 先 要 设置 工作 目录 。 如 果 使 用 脚本 运行 ， 那 么 默认 的 工作 目录 为 脚本 所 在 的 目录 。 但 大 多 数 时 候 我 们 会 将 数据 文件 放 在 某 个 固定 目录 ， 要 改变 工作 目录 ， 首 先 要 引入 os 模块 ， 语 
句 为 : import os。 查 看 当前 工作 目录 的 方法 是 os.getwd () ， 改 变 工作 目录 的 方法 是 os.chdir (string) ， 如 代码 清单 2-21 所 示 : 


代码 清单 2-21 ”改变 工作 目录 


import os 

os.chdir ('F:/Data') # 改变 路 径 至 FE 盘 的 Data 文 件 夹 下 ， 注 意 不 是 反 斜 杠 
print os .getcwd () 

# result: F:\ 数 据 集 


* 代 码 详 见 : 示例 程序 /code/2-5.py 


2.5.2 ”txt 文 件 读 取 


Python 进行 文件 读 写 的 函数 是 open 或 file。 其 格式 如 下 : 


file handler = open (filename,mode='r') 


其 中 filename 是 我 们 希望 打开 的 文件 的 字符 串 名 字 ，mode 表 示 我 们 的 读 写 模式 ， 所 有 模式 如 表 2-10 所 示 ， 默 认为 read 模 式 。 如 果 此 语句 执行 成 功 ， 那 么 一 个 文件 句柄 就 会 返回 ， 后 面 的 文件 操作 需 依 
赖 文 件 句柄 的 方法 进行 。 表 2-11 给 出 了 文件 句柄 的 所 有 方法 。 


表 2-10 读 写 模式 


模式 说 明 
和 以 谈 方 式 打 开 文 件 ， 仅 可 谈 取 文件 信息 
以 写 方式 开始 文件 ， 仅 可 回 文 件 写 人 信息 。 如 宋 文 件 存 在 ， 则 清空 该 文件 ， 再 进行 号 人 。 如 朱文 件 不 
存在 则 目 动 创建 
以 追加 模式 打开 文件 ， 文 件 指针 目 动 移动 到 文件 未 尾 ， 仅 可 从 文件 末尾 开始 写 人 ， 如 有 朱文 件 不 存在 则 
目 动 创建 
于 以 谈 写 方式 打开 文件 ， 可 对 文件 进行 谈 写 操作 
w+ | 消除 文件 内 容 ， 然 后 以 该 写 方式 打开 文件 。 如 果 文 件 不 存在 则 目 动 创建 
a+ ”| ”以 读 写 方式 打开 文件 ， 并 把 文件 指针 移 到 文件 末尾 。 如 果 不 存 在 则 目 动 创建 
和 以 二 进 制 模式 打开 文件 ， 而 不 是 以 文本 模式 


》 


》 


表 2-11 文件 句柄 方法 


f.close() 关闭 文件 ， 记 住 用 open( 打开 文件 后 须 得 关闭 它 ， 否 则 会 占用 系统 的 可 打开 文件 句柄 数 
f.flush() 刷新 输出 缓存 


fread([count]) 该 出 文件 ， 如 果 有 count， 则 该 出 count 个 字 贡 
f.readline() 读 出 一 行 信 息 
f.readlines 该 出 所 有 行 ， 也 就 是 读 出 整个 文件 的 信息 


]) 把 文件 指针 移动 到 相对 于 where 的 offset 位 置 。where 为 0 表示 文件 开始 处 ， 这 是 默认 
值 ; 1 表示 当前 位 置 ; 2 表示 文件 结尾 
f.tell() 获得 文件 指针 位 置 


f.seek(offset[,where 


f.write(string) 把 string 字符 串 写 入 文件 
f.writelines(list) 把 list 中 的 字符 串 一 行 一 行 地 写 和 文件， 是 连续 写 入 文件 ， 没 有 换行 


我 们 常用 的 文件 读 入 函数 是 readline () 和 readlines () 。 首 先 我 们 假设 在 我 们 脚本 目录 下 有 这 样 一 个 data.txt， 其 数据 如 下 : 


和 二 
、 、 
心 


注意 第 一 行 中 有 一 个 换行 符 。 如 果 我 们 采用 readline () 语句 读 取 ， 执 行 f=open ('data.txt'，'r) 和 a=f.readline () ， 那 么 就 会 将 第 一 行 以 字符 串 的 形式 返回 ， 此 时 a='1，2\n'。 同 时 文件 指针 指向 
第 一 行 未 尾 ， 如 果 再 执行 语句 b=f.readline () ， 那 么 pb='3，4'， 此 时 文件 指针 就 指向 文件 未 尾 ， 文 件 已 读 取 完 毕 。 可 以 使 用 下 面 的 while 循 环 读 取 所 有 语句 : 


I=2# 文 件 的 行 数 
for i in range(L): 
a = readline() 
# 对 该 行 的 处 理 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..http://www.hzcourse.com/resource/readBook?path=/openresources/teach er 


如 果 我 们 想 去 掉 第 一 行 的 读 取 的 换行 符 ， 可 以 使 用 语句 a=a.strip () ，strip () 可 以 去 掉 一 个 字符 串 开 头 和 末尾 的 空白 字符 ， 包 括 换行 符 ， 已 在 2.4.2 节 中 介绍 到 。 


而 readlines 则 返回 一 个 列表 ， 列 表 包含 了 每 一 行 的 字符 串 数 据 。 如 执行 a=freadlines () ， 那 么 此 时 a=[1，2\n'，'3，4"]， 代 码 清单 2-22 给 出 了 一 个 读 取 数 据 的 例子 ， 其 数据 是 用 于 回归 预测 的 COIL 
数据 集 。 例 子 最 终 保 存 的 形式 是 一 个 二 维 列表 ， 在 后 面 的 数据 处 理 可 以 很 容易 的 变换 为 numpy.array， 大 部 分 数据 挖掘 的 算法 都 需要 numpy.array 作 为 数据 存储 的 格式 。 


代码 清单 2-22 ”文件 读 写 


data=[] 草 先 定义 存储 数据 的 总 列表 ， 总 列表 的 每 个 元 素 都 是 一 个 列表 ， 各 存储 一 行 数 据 
fr = open('ticdata2000.txt') # 打开 文件 


for line in fr.readlines():  # readlines() 返 回 一 个 字符 囊 列表 ， 每 个 字符 囊 存储 一 行 原始 数据 
line = line.strip() # 去 掉 换 行 符 
Eee LE \E") # 通过 字符 囊 的 制 表 符 "\t" 分 隔 数 据 ， 并 且 返 回 一 个 列表 ， 使 用 列表 存储 该 行 数据 
data.append (data line) # 将 存储 一 行 数据 的 列表 添加 到 总 列表 中 

print data[0] # 输出 第 一 行 的 数据 


fr.close() 


* 代 码 详 见 : 示例 程序 /code/2-5.py 


2.5.3 csv 文件 读 取 


我 们 习惯 使 用 Excel 表 存储 数据 ， 但 Excel 表 数据 直接 用 Python 读 取 是 行 不 通 的 。 一 个 常用 的 办 法 是 将 文件 另存 为 csv 文 件 格式 。csv 是 逗号 分 隔 符 的 数据 表 ， 每 两 个 数据 单元 间 用 逗号 分 隔 ， 实 际 上 和 txt 
文件 没有 本 质 的 区 别 。 在 代码 清单 2-22 中 ， 数 据 文件 的 数据 是 用 制 表 符 分 隔 的 ， 如 果 改 成 用 逗号 分 隔 ， 表 把 后 缀 名 改 成 csv， 那 就 转换 成 了 csv 文 件 。 同 理 ，csv 文 件 读 取 的 处 理 与 txt 几 乎 一 样 ， 使 用 语句 
f=open ('data.csv') 读 取 ， 这 里 不 再 举例 歼 述 。 如 果 我 们 使 用 pandas 模 块 ， 那 么 读 入 csv 文 件 会 更 快捷 方便 ， 直 接 使 用 pandas.read_csv() 方法 即 可 ， 本 书后 面 会 介绍 pandas 模 块 。 


2.5.4 ”文件 输出 


在 2.5.2 节 中 ， 我 们 把 数据 1，2，3，4 成 功 读 入 到 程序 中 ， 现 在 我 们 考虑 ， 假 设 我 们 的 程序 中 得 出 了 一 个 二 维 列表 data=[['1'，'2]，['3'，'4']]， 我 们 重新 输出 到 文件 ， 还 原 为 2.5.2 节 中 的 原始 数据 。 我 们 
可 以 使 用 方法 f.write (string) ， 并 且 借 助 字 符 串 的 join 方 法 输出 到 文件 中 。 如 果 二 维 列表 的 元 素 不 是 字符 类 型 而 是 整数 类 型 ， 我 们 不 能 使 用 join 方 法 ， 使 用 f.write (string) 输出 比较 麻烦 ， 这 里 介绍 另 一 
种 更 灵活 的 输出 到 文件 的 方式 : print> > >f。 这 样 就 会 把 原本 print 函 数 输出 到 shell 的 内 容 改 为 输出 到 文件 中 ， 请 参考 代码 清单 2-23。 


代码 清单 2-23 ”文件 输出 


f = open('output.txt"','w') 
# 使 用 join 方 法 和 write 方 法 
data=[["1, "2 [3 "4 1] 
linel = ','".jJoin(data[0]1) 
Ff .write (linel+'\n') 

line2 =','.join(data[l1]) 

Ff .write (line2+'\n') 

# 使 用 print>>>f， 
data=[[1;2], [34]] 

for line in data: 

print>>>f, str (line[0])+', '+str (line[1])+'\n', 
f.close() 


* 代 码 详 见 : 示例 程序 /code/2-5.py 


2.5.5 ”使 用 JSON 处 理 数 据 


从 代码 清单 2-23 中 读者 可 以 看 出 ， 保 存 数值 型 数据 比 保存 字符 串 类 型 的 数据 容易 得 多 。 因 为 wtite (string) 方法 只 能 输出 字符 串 ， 且 read () 函数 只 会 返回 字符 串 ， 想 转化 为 数值 型 数据 需 用 int () 这 
样 的 函数 。 当 想 保 存 列表 和 字典 这 样 复杂 的 数据 结构 时 ， 单 靠 read () 和 write () 去 人 工 解析 是 很 困难 的 。 幸 运 的 是 ，Python 人 允许 用 户 使 用 常用 的 数据 交换 格式 JJON (JavaScript Object Noation) 。 
标准 模块 json 可 以 接受 Python 数据 结构 ， 并 将 它们 转换 为 字符 串 表 示 形 式 ， 此 过 程 称 为 序列 化 (Serialize) 。 从 字符 串 表 示 形 式 重 新 构建 数据 结构 称 为 反 序列 化 (Deserialize) 。 序 列 化 和 反 序 列 化 的 过 程 
中 ， 表 示 该 对 象 的 字符 串 可 以 存储 在 文件 中 。 


假设 现在 有 一 个 字典 x=dict (height=176，weight=60) ， 可 以 使 用 y=json.dumps (x) 将 x 转换 为 一 个 字符 串 y。 反 过 来 可 以 使 用 son.loads (y) 将 字符 串 转 为 原来 的 字典 。 如 果 想 保存 到 文件 中 或 
读 取 JSON 文 件 ， 可 以 使 用 上 面 水 数 的 变 体 dump () 和 load () ， 代 码 清单 2-24 给 出 了 具体 实例 。 


代码 清单 2-24 ”使 用 son 处 理 数 据 


import json 
# 使 用 dumps () 和 loads () 


x=dict (height=176,weight=60) 

print ' 原 始 字 典 内 容 : ' ,x 

y = json.dumps (x) # 返回 字符 事 

print ' 序 列 化 后 的 字典 : ',y 

x = json.1loads (y) 

print ' 反 序列 化 后 又 还 原 为 原始 的 字典 : ' ,xX 
# 使 用 dump () 和 load () 

f=open ('BigData.json', 'w') 
json.dump (x,f) # 保存 到 文件 中 
f.close() 
f=open ('BigData.json', 'r') 

print ' 从 文件 读 取 到 的 JSON: ',json.load (f) 


* 代 码 详 见 : 示例 程序 /code/2-5.py 


2.6 ”上 机 实验 


1. 实 验 目的 

. 掌握 Python 流 程控 制 语句 ， 合 理 运 用 循环 进行 程序 设计 。 

“ 掌握 Python 数 据 结 构 ， 并 能 熟练 运用 进行 程序 设计 。 

. 掌握 python 的 文件 读 写 ， 并 能 编写 读 取 数据 集 的 程序 。 

2. 实 验 内 容 

实验 一 

冒 泡 排序 是 一 个 经 典 的 排序 算法 ， 任 意 给 定 一 个 Python 的 列表 SList， 要 求 使 用 Python 实 现 冒 泡 排 序 算法 对 SList 进 行 排序 。 
输入 样 例 : SList = [5, 6, 3, 4, 8, 1, 9, 0, 22] 

输出 样 例 : [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 

提示 : for i in range(3)[:-1]: 这 个 语法 表示 从 2 到 0 倒叙 遍历 

实验 二 


设计 一 个 节假日 字典 ， 键 值 为 日 期 ， 格 式 如 “160101” (表示 2016 年 1 月 1 日 ) 。 现 在 要 求 使 用 Python 编写 一 个 2016 年 5 月 的 节假日 字典 ， 当 输入 日 期 时 ， 字 典 能 返回 一 个 值 ，1 代 表 该 日 为 节假日 ，0 
代表 该 日 不 是 节假日 。 最 后 要 求 使 用 son 模 块 将 这 个 节假日 字典 序列 化 并 保存 下 来 。 


实验 三 


进行 txt 文 件数 据 读 取 ， 数 据 为 UCI 数 据 库 的 疝气 病症 预测 病 马 数据 ， 数 据 见 data/horseColic.txt。 数 据 有 多 行 ， 每 行 都 有 22 个 数据 ， 前 21 个 为 马 的 病症 数据 ， 最 后 一 个 为 该 马 的 标签 ， 判 断 其 患 病 与 
实验 的 要 求 是 将 所 有 行 的 前 21 个 数据 保存 到 一 个 二 维 列表 dataArr 中 ， 而 标签 数据 单独 保存 在 一 个 列表 labelArr 中 。 


不 
[mm 


展示 前 三 行 数据 经 程序 处 理 后 的 格式 : 

dataArr: 

[['2.000000', '1.000000', '38.500000', '66.000000', '28.000000',， '3.000000',， '3.000000',，'0.000000',，'2.000000',， '5.000000',，'4.000000'，'4.000000'，'0.000000'，'0.000000'，'0. 
labelArr: 


['0.000000', '0.000000', "1.000000'] 


本 章 将 介绍 如 何 使 用 Python 编写 函数 。 函 数 是 Python 为 了 代码 效率 的 最 大 化 ， 减 少 元 余 而 提供 的 最 基本 的 程序 结构 。 在 上 一 章 中 ， 我 们 学 会 了 众多 流程 控制 的 语句 ， 在 中 大 型 的 程序 中 ， 同 一 段 代 码 


可 能 会 被 使 用 多 次 ， 如 果 程 序 由 一 段 又 一 段 元 余 的 流程 控制 语句 组 成 ， 那 么 程序 的 可 读 性 会 变 差 。 所 以 ， 我 们 需要 使 用 函数 去 封装 这 些 重复 使 用 的 程序 段 ， 并 加 以 注释 ， 下 次 使 用 的 时 候 就 可 以 直接 调用 ， 
使 代码 更 清晰 明白 。 


本 书 在 这 里 第 一 次 讲 到 函数 封装 的 概念 ， 实 际 上 我 们 在 前 面 已 经 接触 到 了 。 例 如 列表 操作 的 各 种 方法 都 是 函数 ， 在 执行 listappend (x) 的 时 候 在 底层 程序 已 经 执行 了 一 段 代码 。 如 果 不 封装 成 函数 ， 


每 次 添加 元 素 都 要 输入 这 段 代 码 ， 显 得 非常 繁琐 。 程 序 员 没有 必要 去 探究 数据 结构 源码 具体 是 如 何 编写 的 ， 每 种 数据 结构 都 会 提供 众多 的 函数 和 相对 应 的 说 明文 档 ， 程 序 员 仅 需 知道 函数 的 输入 和 输出 就 可 
以 使 用 数据 结构 去 工作 了 。 


函数 能 使 程序 变 得 抽象 。 抽 象 节省 了 工作 ， 并 且 加 大 了 程序 的 可 读 性 。 例 如 ， 写 一 个 求 一 列 数据 的 极 差 的 程序 ， 我 们 可 以 分 解 成 如 下 工作 : 
1) 求 最 大 值 。 

2) 求 最 小 值 。 

3) 求 极 差 ， 极 差 = 最 大 值 -最 小 值 。 


在 第 一 和 第 二 步 中 ， 我 们 编写 函数 max () 和 遂 数 min () ， 第 三 步 直接 调用 六 数 求 极 差 即 可 。 虽 然 这 样 做 得 速度 不 是 最 快 的， 但 我 们 使 得 程序 变 得 抽象 ， 如 果 读 者 不 知道 极 差 的 概念 ， 但 看 到 如 下 的 


代码 : range=max (list1) -min (list1) ， 相 信和 你 们 已 经 明白 程序 的 输入 和 输出 是 什么 了 。 


3.1 


现 ， 


创建 冰 数 


1.def 语 名 


我 们 可 以 用 def 语 句 创建 函数 ， 格 式 为 : def fun_name (par1，pa2，...) : 由 def 关 键 字 ， 函 数 名 和 参数 表 组 成 。 先 举 一 个 简单 的 例子 : 


def fun(): 
print ‘hello,world' 


这 样 就 定义 了 一 个 fun 孙 数 ， 它 没有 参数 ， 也 没有 返回 值 ， 仅 仅 打 印 出 “hello，world”。 下 面 再 定义 一 个 有 参数 也 有 返回 值 的 阔 数 。 


def phello(your name): 
# your name 表示 你 的 名 字 ， 格 式 是 字符 串 
return "Hello '+your name 


这 个 函数 称 为 hello， 输 入 参数 是 your_name， 返 回 加 上 hello 的 字符 串 。 程 序 创建 国 数 后 ， 执 行 s=hello (Tom') 即 得 到 一 个 新 的 字符 串 “Hello Tom” 并 赋值 给 s。Python 的 简洁 性 可 以 从 函数 中 体 
Python 的 参数 也 不 需要 声明 数据 类 型 ， 但 这 也 有 一 定 的 浆 端 ， 程 序 员 可 能 会 因 不 清楚 参数 的 数据 类 型 而 输入 错误 的 参数 ， 例 如 上 面 的 函数 若 执行 hello (1) 就 会 报错 。 所 以 一 般 在 函数 的 开头 注 明子 数 


的 用 途 、 输 入 和 输出 。 


return 语 句 用 于 返回 一 个 结果 对 象 。Python 可 以 没有 返回 值 ， 可 以 有 一 个 返回 值 ， 也 可 以 有 多 个 返回 值 ， 返 回 值 的 数据 类 型 没有 限制 。 当 程序 执行 到 函数 中 的 return 语 句 时 ， 就 会 将 指定 的 值 返回 并 结 


束 函数 ， 如 果 return 后 面 还 有 语句 ， 那 些 语句 将 不 会 被 执行 。 所 以 也 可 以 仅仅 用 一 个 return 结 束 函 数 。 在 其 他 语言 中 很 少 允 许多 个 返回 值 ， 举 一 个 Python 有 多 个 返回 值 函数 的 例子 : 


def maxmin (a,b) 
# ay 了 为 两 个 数值 数据 ， 程 序 返回 它们 从 大 到 小 排列 的 结果 
下 在 >D: 

return arb 

else: 
return 了 bp,a 执 行 bDig，small = maxmin (2，4) 后 , big=4,，small=2。 


2.lambda 语 句 


Python 允许 使 用 lambda 语句 创建 匿名 国 数 ， 也 就 是 说 函数 没有 具体 的 名 称 。 可 能 读者 会 产生 疑惑 ， 国 数 没有 了 名 称 应 该 不 会 是 一 件 好 事 。 但 实际 上 ， 使 用 Python 编写 一 些 执行 脚本 时 ， 使 用 ambda 


省 去 了 定义 函数 的 过 程 ， 代 码 变 得 精简 。 对 于 一 些 抽象 的 、 不 会 在 其 他 地 方 复 用 的 函数 ， 有 时 候 给 函数 命名 也 是 个 难题 〈 需 要 避免 函数 重 名 ) ， 而 使 用 ambda 则 不 需要 考虑 函数 命名 的 问题 。 


lamber 语 句 中 ， 冒 号 前 是 函数 参数 ， 若 有 多 个 函数 使 用 逗号 分 隔 ， 冒 号 右边 是 返回 值 。 如 此 便 构建 了 一 个 函数 对 象 ，def 语 句 也 是 创建 一 个 函数 对 象 ， 只 是 lambda 创 建 的 函数 对 象 没有 名 字 。 


>>>g = lambda x : X+] 

>>>print 9 

<function <lambda> at Ox030EAEFO> 
>>>9g (1) 

2 


使 用 lamber 遂 数 应 该 注意 下 面 4 点 : 

1) lambda 定 义 的 是 单行 函数 ， 如 果 需 要 复杂 的 函数 ， 应 使 用 def 语 句 。 

2) lamdda 参 数列 表 可 以 包含 多 个 函数 ， 如 lambda x, y: x+y。 

3) lambda 语 句 有 且 只 有 一 个 返回 值 。 

4) lambda 语 句 中 的 表达 式 不 能 含有 命令 ， 而 且 仪 限 一 条 表达 式 。 

举 一 个 例子 ，Python 的 数学 库 中 只 有 以 自然 底数 e 和 10 为 底 的 对 数 函 数 ， 下 面 我 们 使 用 ambda 函 数 创建 指定 某 个 数 为 底 的 对 数 函 数 ， 如 代码 清单 3-1 所 示 。 


代码 清单 3-1 ”匿名 函数 


from math import log # 引入 Python 数学 库 的 对 数 函 数 
# 此 函数 用 于 返回 一 个 以 base 为 底 的 匿名 对 数 函 数 
def make logarithmic function (base): 
return lambda x:10og (x,base) 
# 创建 了 一 个 以 3 为 底 的 匿名 对 数 函 数 ， 并 赋值 给 了 My_LF 
My LF = make logarithmic function (3) 
# 使 用 My LE 调用 匿名 函数 ， 参 数 只 需要 真 数 即 可 ， 底 数 已 设置 为 3。 而 使 用 1og () 函数 需要 同时 指定 真 数 和 对 数 。 如 果 我 们 每 次 都 是 求 以 3 为 底数 的 对 数 ， 使 用 My LF 更 方便 。 
print My LF (9) 
# result: 2.0 


* 代 码 详 见 : 示例 程序 /code/3-1.py 


3.2 ”函数 参数 


Python 中 的 函数 参数 主要 有 3 种 形式 ， 分 别 是 

1) 位 置 或 天 键 字 参 数 。 

2) 任意 数量 的 位 置 参数 。 

3) 任意 数量 的 关键 字 参 数 。 

我 们 在 阅读 函数 时 ， 需 要 注意 函数 的 参数 列表 ， 没 有 带 默 认 值 的 参数 需要 我 们 往 函 数 传递 值 ， 而 带 默 认 值 的 参数 可 以 不 传递 值 。 
1. 位 置 或 关键 字 参 数 


这 种 参数 是 Python 默认 的 参数 类 型 ， 函 数 的 参数 定义 为 该 类 参数 后 ， 可 以 通过 位 置 参数 ， 或 者 关键 字 参 数 的 形式 传递 参数 ， 例 如 : 


def fun2 (a,b,c): 
print a,b,c 


# 可 以 使 用 位 置 参数 


>>>fun2 (1, 2, 3) # 输出 1,2,3 

ee oe Ws 

>>>fun2 (a=1, # 输出 1,2,3 

# 也 可 a 但 位 置 参 才 须 在 关键 字 参 数 的 前 面 
>>>fun2 (1 0 # 输出 1,2,3 

Sp te la ， 3) # 报错 


函数 参数 列表 中 可 以 定义 默认 人 参数， 但 Python 不 允许 带 默 认 值 的 参数 定义 在 没有 默认 值 的 参数 之 前 ， 因 为 这 样 写 是 有 歧义 的 。 假 设 允 许 定义 : 


def fun3(a=1,b): 
print a,b 


那么 我 调用 fun3 (2) ， 虽 然 程序 员 希 望 3=1，b=2， 但 Python 的 位 置 参数 是 按 顺 序 赋值 的 ， 程 序 会 先 把 2 赋值 给 a， 从 而 没有 参数 赋值 给 b 了 ， 所 以 程序 会 报错 。 如 果 改 成 : 


def fun3 (ab=2) : 
print Gb 


调用 fun3 (1) 时 ,按照 顺 序 ， 先 将 1 赋值 给 a， 虽 然后 面 没有 参数 传 入 ， 但 b 已 经 有 默认 值 ， 因 此 这 样 写 程序 没有 歧义 ， 输 出 1,， 
2. 任 意 数 量 的 位 置 参数 


任意 数量 的 位 置 参数 在 定义 的 时 候 是 需要 一 个 星 号 前 缀 来 表示 的 ， 在 传递 参数 的 时 候 ， 可 以 在 原 有 参数 的 后 面 添加 0 个 或 多 个 参数 ， 这 些 参数 将 会 被 放 在 元 组 内 并 传 入 函数 。 任 意 数量 的 位 置 参数 (一 个 
星 号 前 缀 ) 必须 定义 在 位 置 或 关键 字 参 数 (无 须 星 号 ) 之 后 ， 且 在 任意 数量 的 关键 字 参 数 (两 个 星 号 前 缀 ) 之 前 。 如 : 


def fun4(stril,*numbers): 
print fun4 , numbers 
>>>fond ("numbers:™ 1,2,3,4) # 输 出 numbers: (1，2，3，4) 


def fun4 (*numbers，str1) 这 样 定义 参数 列表 是 不 允许 的 ， 因 为 同样 有 歧义 。 
3. 任 意 数 量 的 关键 字 参 数 


任意 数量 的 关键 字 参 数 人 在 定义 的 时 候 ， 参 数 名称 前 面 需要 有 两 个 星 号 (*) 作为 前 缀 ， 这 样 定义 出 来 的 参数 ， 在 传递 参数 的 时 候 ， 可 以 在 原 有 的 参数 后 面 添加 任意 0 个 或 多 个 关键 字 参 数 ， 这 些 参数 会 被 
放 到 字典 内 并 传 入 到 函数 中 。 带 两 个 星 号 前 缀 的 参数 必须 定义 在 所 有 带 默 认 值 的 参数 之 后 。 


def fun4(a=1,*numbers,**kwargs): 
print a,numbers, kwargs 

>>>fun4 (4,2,3,4,b=2,c=3) 

# 输 出 4 (2，3，4) {'c': 3, 'b': 2} 


3.3 ”可 变 对 象 与 不 可 变 对 象 


Python 的 所 有 对 象 可 分 为 可 变 对 象 和 不 可 变 对 象 ( 见 表 3-1) 。 所 谓 可 变 对 象 是 指 ， 对 象 的 内 容 可 变 ， 而 不 可 变 对 象 是 指 对 象 内 容 不 可 变 。 


表 3-1 可 变 对 象 与 不 可 变 对 象 


不 可 变 对 象 | 数值 类 型 ， 字 符 串 ， 元 组 
可 变 对 象 | 字典， 列表 


我 们 在 前 面 已 经 介绍 过 数值 类 型 是 不 可 变 对 象 ， 当 程序 尝试 改变 数据 的 值 时 ， 程 序 会 重新 生成 新 的 数据 ， 而 不 是 改变 原来 的 数据 。 


之 所 以 本 书 要 将 这 部 分 内 容 放 到 函数 这 一 章 ， 是 因为 Python 函数 的 参数 都 是 对 象 的 引用 。 如 果 在 引用 不 可 变 对 象 中 尝试 修改 对 象 ， 程 序 会 在 函数 中 生成 新 的 对 象 ， 函 数 外 被 引用 的 对 象 则 不 会 被 改变 。 


请 看 下 面 一 个 函数 : 


def addl (num) : 
num +=1 


执行 num=1，add1 (num) ， 然 后 再 输出 num 的 值 ， 发 现 num 的 值 还 是 1。 这 是 因为 主 程序 中 的 num 与 函数 中 的 num 是 不 一 样 的 ， 具 体 一 点 说 ， 它 们 的 地 址 不 一 样 ， 所 以 改变 函数 中 的 num 值 时 并 不 
会 改变 国 数 外 的 num。 如 果 希 望 改变 主 程序 的 num 值 ， 可 以 通过 返回 值 实现 。 


但 如 果 参 数 是 一 个 列表 : 


def add ele(list): 
list.appengd (3) 

>>>L= [1,2] 

>>>adqd ele (L) 


输出 [时 你 会 发 现 L[ 变 成 了 [1，2，3]， 这 是 因为 函数 的 参数 是 引用 。 

如 果 我 们 希望 赋值 时 可 变 对 象 不 进行 引用 ， 而 是 重新 分 配 地 址 空间 并 将 数据 复制 ， 我 们 可 以 利用 Python 的 copy 模 块 。 其 中 主要 的 国 数 有 copy.copy 和 copy.deepcopy。 
1) copy.copy 仅 仅 复 制 父 对 象 ， 不 会 复制 父 对 象 内 部 的 子 对 象 。 

2) copy.deepcopy 复 制 父 对 象 和 子 对 象 。 

下 面 给 出 了 一 个 很 好 的 例子 ， 如 代码 清单 3-2 所 示 。 

代码 清单 3-2 ” 深 复制 与 浅 复制 


# 深 复 制 与 浅 复制 

import copy 

ITistl 3 [L261 
list2 = listl 

list3 = copy.copy (list1) 
Jist4 = copy.deepcopy (list1) 
listl.appengd (3) 


listl1[2] .append('c') 

print. ‘listl = !,1ist] 

PELNE,. "Tist2 "liSst2 

print "list3 = "ylist3 

print 'list4 = ',1ist4 

# result 

# listl = [ly 2; [aa ‘by '¢']y 3] 
# ist2 = [Ll 2 [L'a BB", "eo"); 3] 
#- ist3 =: MLly. 2 [a 2D" "Or,] 

# 1St 三 [li 27 [全 “Br]] 


* 代 码 详 见 : 示例 程序 /code/3-3.py 


3.4 作用 域 


Python 在 创建 、 改 变 或 查找 变量 名 时 都 是 在 命名 空间 中 进行 的 ， 更 准确 地 说 ， 是 在 特定 作用 域 下 进行 的 。 所 以 我 们 需要 使 用 某 个 变量 名 时 ， 应 清晰 地 知道 其 作用 域 。 由 于 Python 不 能 声明 变量 ， 所 以 
变量 第 一 次 被 赋值 的 时 候 已 经 与 一 个 特定 作用 域 绑 定 了 。 更 通俗 地 说 ， 在 代码 中 给 一 个 变量 赋值 的 地 方 决定 了 这 个 变量 将 存在 于 哪个 作用 域 ， 它 可 见 的 位 置 在 哪里 。 


首先 举 一 个 函数 的 例子 ， 如 果 有 这 样 的 函数 : 


def defin x(): 


> 
然后 执行 命令 
>>>x=1 


>>>defin x() 
>>>print xX 
>>>1 


执行 函数 defin_x 后 函数 外 的 x 的 值 没 有 变化 。 这 是 因为 整 段 程序 中 存在 两 个 x， 起 初 在 遂 数 体外 创建 了 一 个 x， 接 着 执行 defin x () 时 又 在 函数 内 部 创建 了 一 个 新 的 x 和 一 个 新 的 命名 空间 。 第 二 个 x 的 作 
用 域 是 defin x() 函数 的 内 部 代码 块 ， 赋 值 语句 x=2 仅 在 局 部 作用 域 ( 即 函 数 内 部 ) 起 作用 。 所 以 它 不 会 使 得 函数 外 的 x 发 生 改变 。 我 们 把 函数 内 的 变量 称 为 局 部 变量 (Local Variable) ， 而 在 主 程序 中 的 
变量 称 为 全 局 变量 (Global Variable) 。 在 国 数 内 部 是 可 以 访问 到 全 局 变量 的 : 


def print X() : 
print x 


>>>x = 1 
>>>print x() 
>>>1 


程序 没有 发 生 报 错 并 正确 返回 了 1， 所 以 在 函数 内 部 同样 可 以 使 用 全 局 变量 。 


通过 前 面 的 例子 我 们 已 经 知道 ， 函 数 内 既 可 访问 局 部 变量 也 可 访问 全 局 变量 。 如 果 局 部 变量 和 全 局 变量 出 现 重 名 ， 那 最 终 会 访问 哪 一 个 呢 ” 实际 上 ， 第 一 个 例子 已 经 说 明了 这 个 问题 ， 在 局 部 作用 域 
中 ， 如 果 全 局 变量 与 局 部 变量 重 名 ， 那 么 全 局 变量 会 被 局 部 变量 屏 菩 。 如 果 想 访问 全 局 变量 ， 可 以 使 用 globals 函 数 : 


print globals()['x'] 


>>>print x() 
>>>1 


再 考虑 男 一 个 方向 的 问题 : 我 们 如 何在 函数 内 创建 全 局 变量 呢 ” 可 以 使 用 global 进 行 声明 : 


def defin X() : 
global x 


X = 2 
>>>X = 1 
>>>defin x() 
>>>print x 
>>>2 


函数 内 部 使 用 global 声 明了 变量 名 x 的 作用 域 是 全 局 的 ， 因 而 程序 访问 的 是 全 局 变量 x。 里 然 global 似 乎 很 好 用 ， 但 我 建议 程序 中 尽量 少 用 global， 它 会 使 代码 变 得 混乱 ， 可 读 性 变 差 。 相 反 ， 局 部 变量 
会 使 代码 更 加 抽象 ， 封 装 性 更 好 。 一 个 好 的 函数 只 有 输入 和 输出 能 够 和 函数 外 的 程序 进行 联系 。 


3.5 ”上 机 实验 


1. 实 验 目的 


掌握 函数 的 编写 和 变量 的 作用 域 。 


使 用 递归 算法 ， 编 写 一 个 函数 计算 斐 波 那 契 数 列 的 第 n 项 (注意 使 用 该 算法 求 裴 波 那 契 数列 是 很 低 效 的 ， 这 里 仅 作 为 程序 编写 的 练习 ) 。 


样本 输入 : n=10 样 本 输入 : 89 


第 4 章 ”面向 对 条 编程 


在 前 面 讲解 了 Python 的 主要 内 建 对 象 类 型 (数字 ， 列 表 ， 元 组 ， 字 典 ， 字 符 串 ) ， 本 章 我 们 将 介绍 如 何 自 定义 对 象 。 Python 是 一 门面 向 对 象 编程 的 语言 ， 因 此 自 定义 对 象 是 Python 语言 的 一 个 核心 。 
本 章 将 先 从 面向 对 象 的 思想 开始 ， 然 后 逐步 介绍 Python 的 类 和 对 象 。 类 使 得 程序 设计 更 加 抽象 ， 通 过 类 的 继承 (Inheritance) 和 组 合 (Composition) 使 得 程序 语言 更 接近 人 类 的 语言 。 


41 简介 


1. 简 单 的 例子 


面向 对 象 出 现 以 前 ， 结 构 化 程序 设计 是 程序 设计 的 主流 ， 结 构 化 程序 设计 又 称 为 面向 过 程 的 程序 设计 。 面 向 过 程 是 分 析出 解决 问题 所 需要 的 步骤 ， 然 后 用 函数 一 步 一 步 实现 这 些 步骤 ， 使 用 的 时 候 一 个 
一 个 依次 调用 就 可 以 了 。 而 面向 对 象 是 把 构成 问题 的 事务 分 解 成 各 个 对 象 ， 建 立 对 象 的 目的 不 是 为 了 完成 一 个 步骤 ， 而 是 为 了 描 叙 某 个 事物 在 整个 解决 问题 的 步骤 中 的 行为 。 例 如 五 子 棋 ， 面 向 过 程 的 设计 
思路 就 是 首先 分 析 问 题 的 步骤 : @ 四 开始 游戏 ，@ 黑 子 先 走 ，@ 绘 制 画 面 ，@@ 判 断 输赢 ，@ 轮 到 白 子 ，@ 绘 制 画面 ，@ 判 断 输赢 ，@ 返 回 步骤 2，@ 输 出 最 后 结果 。 把 上 面 每 个 步骤 分 别 用 函数 来 实现 ， 问 题 就 
解决 了 。 而 面向 对 象 的 设计 则 是 从 另外 的 思路 来 解决 问题 。 整 个 五 子 棋 可 以 分 为 : @ 黑 白 双 方 ， 这 两 方 的 行为 是 一 模 一 样 的 ，@ 棋 盘 系 统 ， 负 责 绘制 画面 ; @ 规 则 系统 ， 负 责 判 定 诸如 犯规 、 输 赢 等 。 第 一 
类 对 象 (玩家 对 象 ) 负责 接受 用 户 输入 ， 并 告知 第 二 类 对 象 (棋盘 对 象 ) 棋子 布局 的 变化 ， 棋 盘 对 象 接 收 到 了 棋子 的 输入 就 要 负责 在 屏幕 上 面 显示 出 这 种 变化 ， 同 时 利用 第 三 类 对 象 (规则 系统 ) 来 对 棋局 
进行 判定 。 可 以 明显 地 看 出 ， 面 向 对 象 是 以 功能 来 划分 问题 ， 而 不 是 步骤 。 同 样 是 绘制 棋局 ， 在 面向 过 程 的 设计 中 ， 需 要 多 个 步骤 执行 该 任务 。 但 这 样 很 可 能 导致 不 同步 又 的 绘制 棋局 程序 不 同 ， 因 为 设计 
人 员 会 根据 实际 情况 对 绘制 棋局 的 程序 进行 简化 。 而 面向 对 象 的 设计 中 ， 绘 图 只 可 能 在 棋盘 对 象 中 出 现 ， 从 而 保证 了 绘图 的 统一 。 


2. 面 向 对 象 的 优点 


在 面向 过 程 程序 设计 中 ， 问 题 被 看 作 一 系列 需要 完成 的 任务 ， 解 决 问题 的 焦点 集中 于 函数 。 其 中 国 数 是 面向 过 程 的 ， 即 它 关注 如 何 根据 规定 的 条 件 完成 指定 的 任务 。 在 多 函数 程序 中 ， 许 多 重要 的 数据 
被 放置 在 全 局 数据 区 ， 这 样 它们 可 以 被 所 有 的 函数 访问 。 每 个 函数 都 可 以 具有 它们 自己 的 局 部 数据 。 这 种 结构 很 容易 造成 全 局 数据 在 无 意 中 被 其 他 函数 改动 ， 因 而 程序 的 正确 性 不 易 保证 。 面 向 对 象 程序 设 
计 的 出 发 点 之 一 就 是 弥补 面向 过 程 程序 设计 中 的 一 些 缺 点 : 对 象 是 程序 的 基本 元 素 ， 它 将 数据 和 操作 紧密 地 连接 在 一 起 ， 并 保护 数据 不 会 被 外 界 的 函数 意外 地 改变 。 因 此 面向 对 象 有 如 下 优点 : 


1) 数据 抽象 的 概念 可 以 在 保持 外 部 接口 不 变 的 情况 下 改变 内 部 实现 ， 从 而 减少 甚至 避免 对 外 界 的 干扰 。 

2) 通过 继承 可 以 大 幅 减少 元 余 的 代码 ， 并 可 以 方便 地 扩展 现 有 代码 ， 提 高 编码 效率 ， 也 降低 了 出 错 概率 ， 降 低 了 软件 维护 的 难度 。 
3) 结合 面向 对 象 分 析 、 面 向 对 象 设计 ， 人 允许 将 问题 域 中 的 对 象 直接 映射 到 程序 中 ， 减 少 软 件 开发 过 程 中 中 间 环 节 的 转换 过 程 。 

3. 何 时 使 用 面向 对 象 编程 


面向 对 象 的 程序 与 人 类 对 事物 的 抽象 理解 密切 相关 。 举 一 个 例子 ， 虽然 我 们 不 知道 精灵 宝 可 梦 这 款 游戏 (又 名 口袋 妖怪 ) 的 具体 源码 ， 但 可 以 确定 的 是 ， 它 的 程序 是 通过 面向 对 象 的 思想 编写 的 。 我 们 
将 游戏 中 的 每 种 精灵 看 作 一 个 类 ， 而 具体 的 某 只 精灵 就 是 其 中 一 个 类 的 一 个 实例 对 象 ， 所 以 每 种 精灵 的 程序 具有 一 定 的 独立 性 。 程 序 员 可 以 同时 编写 多 只 精灵 的 程序 ， 它 们 之 间 不 会 相互 影响 。 为 什么 这 里 
我 们 不 能 使 用 面向 过 程 编程 呢 ? 大 家 试想 一 下 ， 如 果 程 序 员 要 开发 新 的 精灵 ， 那 么 就 必须 对 之 前 的 程序 做 大 规模 的 修改 ， 以 使 程序 的 各 个 函数 能 够 正常 工作 〈 以 前 的 函数 没有 新 精灵 的 数据 ) 。 现 在 的 程序 
和 软件 开发 都 是 使 用 面向 对 象 编程 的 ， 最 重要 的 原因 还 是 其 良好 的 抽象 性 。 但 对 于 小 型 程序 和 算法 来 说 ， 面 向 对 象 的 程序 一 般 会 比 面向 过 程 的 程序 慢 ， 所 以 我 们 编写 程序 需要 掌握 两 种 思想 ， 发 挥 出 它们 的 
长 处 。 


4.2 ”类 与 对 象 


下 面 我 们 正式 创建 自己 的 类 ， 这 里 我 们 使 用 Python 自 定义 精灵 宝 可 梦 中 的 小 火龙 ， 如 代码 清单 4-1 所 示 。 


代码 清单 4-1 自 定义 类 1 


class Charmander: 
def setName (self,name): 
self.name = name 
def getName (self): 
return self.name 
def getInfo (self): 


-一 


* 代 码 详 见 : 示例 程序 /code/4-2.py 


类 的 定义 就 像 函 数 定义 ， 用 class 语 句 蔡 代 了 def 语 句 ， 同 样 需要 执行 class 的 整 段 代 码 这 个 类 才 会 生效 。 进 入 类 定义 部 分 后 ， 会 创建 出 一 个 新 的 局 部 作用 域 ， 后 面 定义 的 类 的 数据 属性 和 方法 都 是 属于 此 
作用 域 的 局 部 变量 。 上 面 创 建 的 类 很 简单 ， 只 有 一 些 简单 的 方法 。 当 捕捉 到 精灵 的 时 候 ， 首 先 要 为 其 起 名 字 ， 所 以 我 们 先 编写 国 数 setName () 和 getName () 。 似 乎 水 数 中 self 参 数 有 点 奇怪 ， 我 们 尝试 
建立 具体 的 对 象 来 探究 该 参数 的 作用 。 


>>>pokemon1 


= Charmander () 


>>>pokemon2 = Charmander () 


>>>pokemon] 


setName ('Bang' 


>>>pokemon2 .SetName ('Loop'" 
>>>print Pokemonl .getName ( 


Bang 


Loop 


>>> Prin 


< _ main 


>>> prin 


>>>print Pokemon2 .getName ( 


Lance ai 


) 
) 
) 


) 


t pokemon1 .getInfo () 
.Charmander instance at Ox02F26B98> 
t pokemon2 .getInfo () 
< main .Charmander insi 


t OxO02F26AF8> 


创建 对 象 和 调用 一 个 遂 数 很 相似 ， 使 用 类 名 作为 关键 字 创 建 一 个 类 的 对 象 。 实 际 上 Charmander 的 括号 里 是 可 以 有 参数 的 ， 后 面 我 们 会 讨论 到 。 我 们 捕捉 了 两 只 精灵 ， 一 只 名 字 为 Bang， 另 一 只 为 
Loop， 并 且 对 它们 执行 getName () ， 名 字 正 确 返 回 。 观 察 getlnfo () 的 输出 ， 返 回 的 是 包含 地 址 的 具体 对 象 的 信息 ， 可 以 看 到 两 个 对 象 的 地 址 是 不 一 样 的 。self 的 作用 与 C++ 的 *this 指 针 类 似 ， 在 调用 
charmander 的 setName 和 getName 函 数 时 ， 函 数 都 会 自动 把 该 对 象 的 地 址 作为 第 一 个 参数 传 入 (该 信息 包含 在 参数 self 中 ) ， 这 就 是 为 什么 我 们 调用 函数 时 不 需要 写 seff， 而 在 函数 定义 时 需要 把 self 作 为 
第 一 个 参数 。 传 入 对 象 的 地 址 是 相当 必要 的 ， 如 果 不 传 入 地 址 ， 程 序 就 不 知道 要 访问 类 的 哪 一 个 对 象 。 


类 的 每 个 对 象 都 会 有 各 自 的 数据 属性 。Charmander 类 中 有 数据 属性 name， 这 是 通过 setName () 函数 中 的 语句 self.name=name 创 建 的 。 这 个 语句 中 的 两 个 name 是 不 一 样 的 ， 它 们 的 作用 域 不 一 
样 。 第 一 个 name 通 过 self 语 句 声明 的 作用 域 是 类 Charmander () 的 作用 域 ， 将 其 作为 pokenmon1 的 数据 属性 进行 存储 ， 而 后 面 的 name 的 作用 域 是 函数 的 局 部 作用 域 ， 与 参数 中 的 name 相 同 。 而 后 面 
getName () 函数 返回 的 是 对 象 中 的 name。 


43 init 方法 


从 深 一 层 的 逻辑 去 说 ， 我 们 捕捉 到 精灵 的 那 一 刻 应 该 已 经 起 好 了 名 字 ， 而 并 非 捕捉 后 再 去 设置 。 所 以 这 里 我 们 需要 的 是 一 个 初始 化 的 手段 。Python 中 的 _init 方法 用 于 初始 化 类 的 实例 对 象 。_init_ 
函数 的 作用 一 定 程 度 上 与 C++ 的 构造 函数 相似 ， 但 并 不 等 于 。C++ 的 构造 函数 是 使 用 该 冰 数 去 创建 一 个 类 的 示例 对 象 ， 而 Python 执行 _init_ 方 法 时 实例 对 象 已 被 构造 出 来 。_init “方法 会 在 对 象 构造 出 来 
后 所 以 可 以 用 于 初始 化 我 们 所 需要 的 数据 属性 。 修 改 Charmander 类 的 代码 ， 如 代码 清单 4-2 所 示 。 


自动 执行 ， 


代码 清单 4-2 自 定义 类 2 


class Charmander: 


(self,name, gender, level): 


'), None) 


2*level, 5+l*level, 5+1xlevel, 5+l*level, 5+1l*level, 5+1* 


， 防 御 ， 特 攻 ， 特 防 ， 速 度 


def init 
self.type = ('fire 
self.gender = gender 
self.name = name 
self.level = level 
self.status = [10 
levell] 
# 最 大 HP, 攻击 
def getName (self): 
return self.name 
def getGender (self): 
returnm self.gender 
def getType (self): 
return self.type 
def getStatus (self): 
return self.status 


* 代 码 详 见 : 示例 程序 /code/4-3.py 


这 里 我 们 增加 了 几 个 数据 属性 : 性 别 、 等 级 、 能 力 、 属 性 。 连 同 前 面 的 名 字 ， 都 放 在 _init_ 方 法 进行 初始 化 。 数 据 属性 是 可 以 使 用 任意 数据 类 型 的 ， 小 火龙 属性 是 火 ， 而 精灵 可 能 会 有 两 个 属性 ， 如 小 
火龙 经 过 两 次 进化 成 为 喷 火 龙 后 ， 属 性 变 为 火 和 飞行 。 为 保持 数据 类 型 的 一 致 性 ， 所 以 我 们 使 用 元 组 存储 ， 并 让 小 火龙 的 第 二 个 属性 为 None。 由 于 小 火龙 的 属性 是 固定 的 ， 所 以 在 _init_ 的 输入 参数 不 需 


>>>pokemonl1 = Charmander("] 
>>>pokemon2 = Charmander ('Loop', 'female',6) 


>>>print pokemonl .getName ( 


Bang male [20, 10, 10, 10, 


Bang', 'male', 5) 


) ,Pokemonl1 .getGender () ,pokemon] .ge 


10, 10] 


>>>print pokemon2 .ge 


tName () ,pokemon2 .ge 


这 时 候 创建 实例 对 象 就 需要 参数 了 ， 实 际 上 这 是 _init_ 函 


IOOP female 


[22;5. Lls LL ly Bl 


4.4 对象 的 方法 


1. 方 法 引 


用 


tS 


La 


tus () 


tGender () ,pokemon2 .ge 


tS 


La 


tus () 


数 。 _init_ 自动 将 数据 属性 进行 了 初始 化 ， 然 后 调用 相关 遂 数 能 够 返回 我 们 需要 的 对 象 的 数据 属性 。 


本 节 我 们 详细 探讨 对 象 的 方法 ， 类 的 方法 和 对 象 的 方法 是 一 样 。 我 们 在 定义 类 的 方法 时 程序 没有 为 类 的 方法 分 配 内 存 ， 而 在 创建 具体 实例 对 象 的 程序 才 会 为 对 象 的 每 个 数据 属性 和 方法 分 配 内 存 。 我 们 
已 经 知道 定义 类 的 方法 是 def 定 义 的 ， 具 体 定义 格式 与 普通 函数 相似 ， 只 不 过 类 的 方法 的 第 一 个 参数 需要 为 self 参 数 。 我 们 可 以 用 普通 浮 数 实现 对 对 象 函 数 的 引用 : 


>>>pokemonl1 = Charmander("] 


Bang', 'male', 5) 


>>>gqetSstatusl = pokemonl .getSstatus 
>>>print getStatusl () 


[20，10， 


10, 


10, 10, 10] 


虽然 这 看 上 去 似乎 是 调用 了 一 个 普通 函数 ， 但 是 getstatus1 () 这 


2. 私 有 化 


个 


函数 是 引用 pokm-emon1.getStatus () 的 ,意味 着 程序 还 是 隐 性 地 加 入 了 self 参 数 。 


另外 我 们 再 谈 谈 私有 化 。 使 用 代码 清单 4-3， 我 们 发 现 如果 要 获取 对 象 的 数据 属性 并 不 需要 通过 getName () ，getType () 等 方法 ， 直 接 在 程序 外 部 调用 数据 属性 即 可 : 


>>> print Pokemonl .type ，Pokemonl .getType() 
('fire', None) ('fire', None) 

>>> print pokemonl .gender , pokemonl .getGender () 
male male 


虽然 这 似乎 很 方便 ， 但 是 却 违反 了 类 的 封装 原则 。 对 象 的 状态 对 于 类 外 部 应 该 是 不 可 访问 的 。 为 什么 要 这 样 做 ”我 们 查看 Python 的 模块 的 源码 时 会 发 现 源码 里 面 定义 的 很 多 类 ， 模 块 中 的 算法 通过 使 用 
类 实现 是 很 常见 的 ， 如 果 我 们 使 用 算法 时 能 够 随意 访问 对 象 中 的 数据 属性 ， 那 么 很 可 能 在 不 经 意 中 修改 了 算法 中 已 经 设置 的 参数 ， 这 是 十 分 糟糕 的 。 尽 管 我 们 不 会 刻意 这 么 做 ， 但 是 这 种 无 意 的 改动 是 常 有 
的 事 。 一 般 封 装 好 的 类 都 会 有 足够 的 函数 接口 供 程序 员 使 用 ， 程 序 员 没有 必要 访问 对 象 的 具体 数据 属性 。 


为 防止 程序 员 无 意 地 修改 了 对 象 的 状态 ， 我 们 需要 对 类 的 数据 属性 和 方法 进行 私有 化 。Python 不 支持 直接 私有 方式 ， 但 可 以 使 用 一 些小 技巧 达到 私有 特性 的 目的 。 为 了 让 方法 的 数据 属性 或 方法 变 为 私 
只 需要 在 它 的 名 字 前 面 加 上 双 下 划 线 即 可 ， 修 改 Charmander 类 代码 ， 如 代码 清单 4-3 所 示 : 


对 


代码 清单 4-3 ” 自 定义 类 3 


class Charmander: 


def jinit (self,name,gender,1level): 
self. type = ('fire',None) 
self. gender = gender 
self. name = name 
self. level = level 
self. status [10+2*level,5+1l*level,5+1l*level,5+1l*level,5+1l*level,5+1*levell] 
# 最 大 HP, 攻击 ， 防御， 特攻 ， 特 防 ， 速 度 
def getName (self): 
return self. name 
def getGender (self): 
return self. gender 
def getType (self): 
return selt,. type 
def getStatus (self): 
return self. status 
def level up (self): 
self. status = [s+l for s in self. status] 
self. status[0]+=1 # HP 每 级 增加 2 点 ， 其 余 1 点 
def test(self): 
pass 


* 代 码 详 见 : 示例 程序 /code/4-4.py 


>>> Pokemonl = Charmander ('Bang', 'male',5) 
>>> print pokemonl .type 
Traceback (most recent call last): 
File "C:/Users/faker/Desktop/class3.py", line 24, in <module> 
print Pokemonl .type 
AttributeError: Charmander instance has no attribute 'type' 
>>>print pokemonl .getType () 
('fire', None) 
>>>pokemonl .test{) 
Traceback (most recent call last): 
File "C:/Users/faker/Desktop/class3.py", line 26, in <module> 
pokemon]1 .test () 
AttributeError: Charmander instance has no _ attribute "test' 


现在 在 程序 外 部 直接 访问 私有 数据 属性 是 不 允许 的 ， 我 们 只 能 通过 设 定好 的 接口 函数 去 调 取 对 象 的 信息 。 不 过 通过 双 下 划 线 实现 的 私有 化 实际 上 是 “ 伪 私 有 化 ”， 实 际 上 我 们 还 是 可 以 做 到 从 外 部 访问 
这 些 私有 数据 属性 。 


>>>print pokemonl. Charmander type 
('fire', None) 


Python 使 用 的 是 一 种 name _ mangling 技 术 , 将 _membername 蔡 换 成 class_mem-bername， 在 外 部 使 用 原来 的 私有 成 员 时 ， 会 提示 无 法 找到 ， 而 上 面 执行 pokemon1. Charmander_type 是 可 
以 访问 。 简 而 言 之 ， 确 保 其 他 人 无 法 访问 对 象 的 方法 和 数据 属性 是 不 可 能 的 ， 但 是 使 用 这 种 name_mangling 技 术 是 一 种 程序 员 不 应 该 从 外 部 访问 这 些 私有 成 员 的 强 有 力 信 号 。 


可 以 看 到 代码 中 还 增加 了 一 个 函数 level_up () ， 这 个 函数 用 于 处 理 精 灵 升 级 时 能 力 的 提升 。 我 们 不 应 该 在 外 部 修改 pokemon 的 status， 所 以 应 准备 好 接口 去 处 理 能 力 发 生变 化 的 情景 。 函 数 
level_up() 仅 是 一 个 简单 的 例子 ， 在 工业 代码 中 ， 这 样 的 函数 接口 是 大 量 的 ， 程 序 需要 对 它们 进行 归 类 并 附 上 相应 的 文档 说 明 。 


3. 迁 代 器 
我 们 前 面 接触 到 的 Python 容器 对 象 都 可 以 用 for 遍 历 ， 如 代码 清单 4-4 所 示 : 


代码 清单 4-4 迭代 器 


for element in [1, 2, 3]: 
print element 
for element in (1l, 2, 3): 
print element 
for key in {'one':l, 'two':2}: 
print key 

for char in "123": 

print char 

for line in open("myfile.txt"): 
print line 


* 代 码 详 见 : 示例 程序 /code/4-4.py 


这 种 风格 十 分 简洁 方便 。for 语 句 在 容器 对 象 上 调用 了 iter () ， 该 函数 返回 一 个 定义 了 next () 方法 的 迭代 器 对 象 ， 它 将 在 容器 中 逐一 访问 元 素 。 当 容器 遍历 完毕 ，next () 找 不 到 后 续 元 素 


时 ，next () 会 引发 一 个 Stoplteration 异 常 ， 告 知 for 循 环 终止 。 例 如 : 
> > > | 7 3 
>>> it = iter (IL) 
>>> it 
<listiterator object at Ox0302E050> 
>>> it.next () 
| 
>>> it.next () 
2 
>>> it.next () 
3 


当知 道 和 迭代 器 协议 背后 的 机 制 后 ， 我 们 便 可 以 把 迭代 器 加 入 到 自己 的 类 中 。 我 们 需要 定义 一 个 _iter _() 方法 ， 它 返回 一 个 有 next 方 法 的 对 象 。 如 果 类 定义 了 next () ，_iter _() 可 以 只 返回 self。 
再 次 修改 类 Charmenda 的 代码 ， 通 过 迭代 器 能 输出 对 象 的 全 部 信息 ， 如 代码 清单 4-5 所 示 。 


代码 清单 4-5 自 定 义 类 4 


class Charmander: 


def jinit (self,name,gender,1level): 
self. type = ('fire',None) 
self. gender = gender 
self. name = name 
self. level = level] 
self. status = [10+2*level,5+1l*level,5+1l*level,5+1*level,5+1*level,5+1*level] 
self info = [self. name,self. type,self. gender,self. level,self. status] 
self. index = -1 | 
# 最 大 HP, 攻击 ， 防 第 ， 特 攻 ， 特 防 ， 速 度 
def getName (self): 
return self. nam 
def getGender (self): 
return self. gender 
def getType (self): 
return self. typ 
def getStatus (self): 
return self. status 
def level up (self): 
self. status = [s+l for s in self. status] 
self. status[0]+=1 # HP 每 级 增加 2 点 ， 其 余 1 点 
def jiter (self): 
print ' 名 字 属性 性 别 等 级 能 力 ' 
return self 
def next (self): 
if self. index ==len(self. info)-1: 
raise StopIteration 
self. index += 1 
return self. info[lself. index] 


* 代 码 详 见 : 示例 程序 /code/4-4.py 


4.5 ”继承 


面向 对 象 的 编程 带 来 的 好 处 之 一 是 代码 的 重用 ， 实 现 这 种 重用 方法 之 一 是 通过 继承 机 制 。 继 承 是 两 个 类 或 多 个 类 之 间 的 父子 关系 ， 子 类 继承 了 基 类 的 所 有 公有 数据 属性 和 方法 ， 并 且 可 以 通过 编写 子 类 
的 代码 扩充 子 类 的 功能 。 开 个 玩笑 地 说 ， 如 果 人 类 可 以 做 到 儿女 继承 了 父母 的 所 有 才学 并 加 以 招展， 那么 人 类 的 发 展 至 少 是 现在 的 数 万 倍 。 继 承 实现 了 数据 属性 和 方法 的 重用 ， 减 少 了 代码 的 元 余 度 。 


那么 我 们 何 时 需要 使 用 继承 呢 ? 如 果 我 们 需要 的 类 中 具有 公共 的 成 员 ， 且 具有 一 定 的 递 进 关系 ， 那 么 就 可 以 使 用 继承 ， 且 让 结构 最 简单 的 类 作为 基 类 。 一 般 来 说， 子 类 是 父 类 的 特殊 化 ， 如 下 面 的 关 


系 be 


哺乳 类 动物 一 一 > 狗 


> 特定 狗 种 


特定 狗 种 类 继承 狗 类 ， 狗 类 继承 哺乳 动物 类 ， 狗 类 编写 了 摘 述 所 有 狗 种 公有 的 行为 的 方法 而 特定 狗 种 类 则 增加 了 该 狗 种 特有 的 行为 。 不 过 继承 也 有 一 定 弊 端 ， 可 能 基 类 对 于 子 类 也 有 一 定 特殊 的 地 方 ， 
如 某 种 特定 狗 种 不 具有 绝 大 部 分 狗 种 的 行为 ， 当 程序 员 没 有 理 清 类 间 的 关系 时 ， 可 能 使 得 子 类 具有 了 不 该 有 的 方法 。 另 外 ， 如 果 继承 链 太 长 的 话 ， 任 何 一 点 小 的 变化 都 会 引起 一 连 串 变化 ， 我 们 使 用 的 继承 
要 注意 控制 继承 链 的 规模 。 


继承 语法 : class 子 类 名 ( 基 类 名 1， 基 类 名 2，…) 基 类 写 在 括号 里 ， 如 果 有 多 个 基 类 ， 则 需要 全 部 都 写 在 括号 里 ， 这 种 情况 称 为 多 继承 。 在 Python 中 继承 有 以 下 一 些 特点 : 


1) 在 继承 中 基 类 初始 化 方法 _init_ 不 会 被 自动 调用 。 如 果 希 望 子 类 调用 基 类 的 _init 方法， 需要 在 子 类 的 _init_ 方 法 中 显示 调用 了 它 。 这 与 C++ 和 C# 区 别 很 大 。 


2) 在 调用 基 类 的 方法 时 ， 需 要 加 上 基 类 的 类 名 前 缀 ， 且 带 上 self 参 数 变量 。 注 意 在 类 中 调用 该 类 中 定义 的 方法 时 不 需要 self 参 数 。 


3) Python 总 是 首先 查找 对 应 类 的 方法 ， 如 果 在 子 类 中 没有 对 应 的 方法 ，Python 才 会 在 继承 链 的 基 类 中 按 顺 序 查找 。 
4) 在 Python 继承 中 ， 子 类 不 能 访问 基 类 的 私有 成 员 。 
我 们 最 后 一 次 修改 类 Charmander 的 代码 ， 如 代码 清单 4-6 所 示 : 


代码 清单 4-6 自 定 义 类 5 


class pokemon: 

def init (self,name,gender,1evel,type,status): 
self. type = type 
self. gender = gender 
sel name = name 
self. level = level 
self. status = status 
sel info = [self. name,self 
sel 
ge 


. type,self. gender,self. level, self. status] 


def 


.nam 


(self): 
gender 


1 可 1 


def 


def 
typ 


(self): 
urn self. status 
f) “ 


level up (se] 
tatus = [s+ 


self. S 

self; status[0]+=L 
def jiter (self): 

print ' 名 字 属性 性 别 等 级 能 力 ' 
return self 
next (self): 


def 


(Check Ch CE ct Gh CH: 


def 


1 for s in self. status] 
# HP 每 级 增加 2 上 点， 其余 1 点 


def 


if self 


index 


==]len (self 


[teration 


raise Stop] 


fo) -1: 


self. index += 1 


return self. infol[lsel] 
class Charmander (pokemon): 


f. index] 


def 


self. type = (" 

self. gender = gender 

self. name = name 
level 


self. level 


_ init (self,name,gender,1level): 
fire',None) 


# 最 大 HP， 攻 击 ， 防 御 ， 


特攻 ， 特 防 ， 速 度 


self. status = [10 


2*level, 5+1*lev 


1,5+1*level, 5+] 


*]evel,5 


l*level, 5+1* 


levell] 


pokemon. jinit (se] 


fF, Se] 


f. name,self 


* 代 码 详 见 : 示例 程序 /code/4-5.py 


>>> Pokemonl = Charmander ('Bang', 'male',5) 


>>> Print Pokemonl .getGender () 
male 
>>> 


For info in Pokemonl : 
print info 
fire', None) male 5 


Bang (' [20; 


Os LO Oy 


:0 


. gender, self 


. level 


, Self 


10] 


. type, self 


. Status) 


我 们 定义 了 Charmander 类 的 基 类 pokemon， 将 精灵 共有 的 行为 都 放 到 基 类 中 ， 子 类 仪 仅 需要 向 基 类 传输 数据 属性 即 可 。 这 样 做 可 以 很 轻松 地 定义 其 他 基于 pokemon 类 的 子 类 。 因 为 精灵 宝 可 梦 的 精 
灵 有 数 百 只 ， 使 用 继承 的 方法 大 大 减少 了 代码 量 ， 且 当 需 要 对 全 部 精灵 进行 整体 修改 时 仅 需 修改 pokemon 类 即 可 。 可 以 看 到 我 们 Charmander 类 的 _init_ 函数 中 显示 调用 了 pokemon 类 的 _init_ 函数 ,并 
向 基 类 传输 数据 ， 这 里 注意 要 加 self 参 数 。Charmander 类 没有 继承 基 类 的 私有 数据 属性 ， 因 此 在 子 类 中 只 有 一 个 self，type， 不 会 出 现 因 继承 所 造成 的 重 名 情况 。 为 了 能 更 清晰 地 讲述 这 个 问题 ， 这 里 再 举 
一 个 例子 ， 如 代码 清单 4-7 所 示 : 


代码 清单 4-7 ”私有 成 员 无 法 继承 


class animal: 
def jinit (self,age): 
self. age = age 
def print2 (self): 
print self. age 
class dog (animal) : 
def jinit (self,age): 
animal. init (self,age) 
def print2 (self): 
print self. age 
a animal = animal (10) 
a animal .print2 () 
#result: 10 


a dog = dog(10) 
a dog.print2() 
# 程序 报错 ,，AttributeError: dog instance has no attribute ' dog age' 


* 代 码 详 见 : 示例 程序 /code/4-5.py 


4.6 上 机 实验 


1. 实 验 目 的 

能 够 运用 Python 编 写 类 ， 掌 握 面向 对 象 编程 的 思想 。 
. 掌握 类 的 继承 。 

2. 实 验 内 容 

实验 一 


定义 一 个 复数 类 Complex 使 得 下 面 的 代码 能 够 工作 : 


cl = Complex (2,3) // 用 复数 2+3i 初 始 化 cl 
c2 = Complex c2(8,-1) // 用 复数 8-i 初 始 化 c2 

cl1 .adqd (c2) 

cl1 .show () 

实验 二 


定义 一 个 抽象 基 类 shape，shape 不 需要 编写 数据 成 员 和 方法 : 


class Shape (Object) : 
pass 


在 Shape 类 上 派生 出 子 类 Rectangle 和 Circle， 并 在 Rectangle 类 上 派生 出 子 类 Square。 


三 者 都 有 获取 周 长 和 面积 的 方法 getCircumference () 和 getArea () 。 


第 5 草 ”Python 实 用 模块 


从 这 一 章 开始 ， 我 们 开始 讨论 Python 模块 并 详细 介绍 多 个 Python 必须 掌握 的 模块 。 通 过 前 面 章节 的 学 习 ， 理 论 上 我 们 已 经 几乎 能 够 使 用 Python 做 任何 事情 。 但 是 如 果 让 你 写 一 段 实现 矩阵 的 工业 代 
码 ， 我 想 这 也 是 一 件 不 容易 的 事情 ， 不 过 这 段 代码 已 经 有 人 完整 地 写 好 了 ， 我 们 可 以 在 别人 的 基础 上 进行 深 一 层 的 研究 ， 这 就 需要 模块 。 如 果 要 看 得 更 远 ， 我 们 就 需要 站 在 巨人 的 肩膀 上 。 通 过 引入 模块 ， 
我 们 能 够 调用 别人 写 好 的 函数 和 类 ， 而 不 必 重 新 做 别人 已 经 做 好 的 东西 。Python 的 模块 使 得 程序 员 能 够 轻松 地 分 享 自己 的 成 果 ， 这 也 是 Python 这 门 开源 语言 的 一 个 亮点 。 


5.1 ”什么 是 模块 


模块 是 最 高 级 别 的 程序 组 织 单元 ， 它 能 够 将 程序 代码 和 数据 封装 以 便 重 用 。 模 块 往往 对 应 了 Python 的 脚本 文件 (.py) ， 包 含 了 所 有 编写 该 模块 的 程序 员 定 义 的 国 数 和 变量 。 模 块 可 以 被 别 的 程序 导 
入 ， 以 使 用 该 模块 的 函数 等 功能 ， 这 也 是 使 用 Python 标准 库 的 方法 。 导 入 模块 后 ， 在 该 模块 文件 定义 的 所 有 变量 名 都 会 以 被 导入 模块 对 象 的 成 员 的 形式 被 调用 。 换 言 之 ， 模 块 文件 的 全 局 作用 域 变 成 了 模块 
对 象 的 局 部 作用 域 。 因 此 模块 能 够 划分 系统 命名 空间 ， 避 免 了 不 同文 件 变量 重 名 的 问题 。Python 的 模块 使 得 独立 的 文件 连接 成 了 一 个 巨大 的 程序 系统 。 


模块 的 导入 是 通过 Import 语句 ， 下 面 是 三 种 Import 语句 的 格式 : 
. import numpy: 直接 导入 NumPy 模 块 。 
.impott numpy as np: 导入 NumPy 模 块 后 并 将 其 改名 为 np。 


.from numpy impott attay: 从 NumPy 模 块 中 导入 其 中 的 attay 方 法 。 


2.2 NumpPy 


NumPy 是 一 个 Python 科学 计算 的 基础 模块 。NumPy 不 但 能 够 完成 科学 计算 的 任务 ， 也 能 够 被 用 作 有 效 的 多 维 数据 容器 ， 用 于 存储 和 处 理 大 型 矩阵。NumPy 的 数据 容器 能 够 保存 任意 类 型 的 数据 ， 这 


使 得 NumPy 可 以 无 颖 并 快速 地 整合 各 种 数据 。 在 性 能 上 NumPy 比 起 Python 自身 的 让 套 列表 结构 要 高 效 得 多 。Python 在 科学 计算 的 其 他 模块 大 多 数 都 是 在 NumPy 的 基础 上 编写 的 。 


1. 创 建 数 组 


NumPy 有 多 种 方法 去 创建 数组 ， 例 如 通过 元 组 和 列表 。 代 码 清单 ?-1 是 NumPy 创 建 数组 的 一 个 实例 。 


代码 清单 5-1 NumpPy 创 建 数组 


import NumPy as np # 导 入 模块 


print 11 ' 创 建 数 组 ' 11 
arrl np.array ([2,3,4]) 
arr2 


np.array ([ (1.3,9,2.0), (7,6,1)1) 


# 通过 列表 创建 数组 
# 通过 元 组 创建 数组 


arr3 
arr4 


np.zZeros ( (2,3)) 
np.identity (3) 


# 通过 元 组 (2, 3) 生成 零 矩 阵 (矩阵 也 是 数组 的 一 种 ) 
# 生成 3 维 的 单位 矩阵 


arr5 = np.random.random (size = (2,3)) # 生成 每 个 元 素 都 在 [0,1] 之 间 的 随机 适 阵 
print are 
# result: 
# [2 3 #4] 
print arr2 
# result: 


# [[ 1.3 
# 


9 
5 


FS 


[ 0.31654004 0.87056375 0.29050563] 
[ 0.55267505 0.59191276 0.20174988]] 
print arr6 
# result: [5 8 11 14 17] 

print arry 

# result: [ 0. 0.25， :0:5 0:75 1 1.25 1.5 1 15 2 .| 


间 非 砷 口音 间 着 间 避 间 间 间 霹 


* 代 码 详 见 : 示例 程序 /code/5-2.py 
2. 访 问 数 组 
创建 数组 后 ，NumPy 有 很 多 方法 接口 去 访问 数组 的 属性 。 在 科学 计算 时 ， 我 们 需要 频繁 访问 数组 元 素 ， 通 过 NumpPy 索 引 、 切 片 和 返 代 器 方法 能 够 快速 灵活 地 访问 数组 ， 如 代码 清单 5-2 所 示 。 


代码 清单 5-2 ”NumpPy 一 一 访问 数组 


# 查看 数组 的 属性 


print arr2.shape # 返回 矩阵 的 规格 


# result: {2,3) 

print arr2.ndim # 返回 矩阵 的 秩 

# result: 2 

print arr2.size # 返回 矩阵 元 素 总 数 

# result: 6 

print arr2.dtype.name # 返回 矩阵 元 素 的 数据 类 型 
# result: float64 

print type (arr2) # 查看 整个 数组 对 象 的 类 型 

# result: <type 'numpy.ndarray'> 


# 通过 索引 和 切片 访问 数组 元 素 

def f(x,y): 

return 10*xt+y 

arr8 = np.fromfunction (f, (4,3),dtype = int) 


# result 

# [[ 0 1 2] 

# [10 11 12] 

# [20 21 22] 

# [30 31 32]] 

print arr8[1,2] # 返 回 矩 阵 第 1 行 ， 第 2 列 的 元 素 ( 注 意 下 标 从 0 开始 ) 
# result: 12 

print arr8[0:2,:] # 切 片 ， 返 回 和 矩阵 前 2 行 
# result 

# [[ 0 之 | 

# [10 1 ] | 

print arr8[:,1] # 切 片 ， 返 回 和 矩阵 第 1 列 

# result: [ 1 11 21 31] 

print arr8[-1] # 切 片 ， 返 回 和 矩阵 最 后 一 行 
# resuli [30 31 32] 


# 通过 夫 代 器 访问 数组 元 素 
for row in arr8: 
print row 
result: 
[0 1 2] 
[10 11 12] 
[20 21 22] 
[30 31 32] 
for element in arr8.flat: 
print element 


# 输出 矩阵 全 部 元 素 


\ 间 间 间 音 音 


* 代 码 详 见 : 示例 程序 /code/5-2.py 
3. 数 组 的 运算 


NumPy 的 运算 是 相当 方便 高 效 的 ， 其 运算 符 都 是 针对 整个 数组 ， 比 起 使 用 for 循 环 ， 使 用 NumPy 的 运算 方法 在 速度 上 要 优秀 得 多 ， 如 代码 清单 5-3 所 示 。 如 果 NumPy 数 组 是 一 个 矩阵 ， 还 支持 矩阵 求 
转 置 等 操作 。 


漂 


代码 清单 5-3 NumPy 一 一 数组 的 运算 


print 111 数 组 的 运算 '' 1' 
arr9 = np.array ([[2,1], 
arr1l0 = np.array ([[1,2] 
print arr9 - arrl0 

# result: 

[[ 1 -1] 

[二 二 2 

rint arr9**2 

result: 
[[4 1] 
[1 4]] 


[1,2]]) 
; [3,4]1) 


间 间 亲口 间 砷 


print 3*arrl0 

# result: 

[[ 3 6] 

[ 9 12]] 

int arr9*arrl0 
result: 

[[2 2] 

[3 8]] 

rint np.dot (arr9,arr10) 
esult: 

[5 8] 

[ 7 10]] 
rE 沁 天 全 0 王 


昌 


一 


[2 4]] 
rint np.linalg.inv (arr10) 


间 间 砷 口音 间 间 口 间 非 间 口 间 间 间 口 间 砷 


t arrl0.cumsum(axis = 1) 


* 代 码 详 见 : 示例 程序 /code/5-2.py 


4.NumpPy 通 用 冰 数 


许多 数学 上 的 函数 ， 如 sin、cos 等 在 NumPy 都 有 重新 的 实现 。 在 NumPy 中 ， 这 些 函 数 称 为 通用 函数 (Universal Functions) 。 通 用 函数 是 针对 整个 NumPy 数 组 的 ， 因 此 我 们 不 需要 对 数组 的 每 一 个 元 


素 都 进行 一 次 操作 ， 它 们 都 是 以 NumP 


代码 清单 5-4 NumpPy 通 用 函数 


prini ri 'NumPy 通 用 函数 ' 11 
print np.exp (arr9) 

# result: 

[ 7.3890561 2.71828183] 
[ 2.71828183 7.3890561 ] 
rint np.sin(arr9) 

esult: 

[ 0.90929743 0.84147098] 
[ 0.84147098 0.90929743] 
int np.sqrt (arr9) 
esult: 

[ 1.41421356 


mr 一 
| 


一 


一 


[Ls 1.41421356]] 
int np.add (arr9,arr10) 
esult: 

[3 3] 

[4 6]] 


一 


re) 二 霜 二 中 间 间 砷 口音 音 
PF 


* 代 码 详 见 : 示例 程序 /code/5-2.py 


5. 数 组 的 合并 和 分 割 


# 普 通 乘 法 


# 算 阵 乘 法 


# 转 置 


# 返 回 逆 算 阵 
# 数 组 元 素 求 和 


# 返 回 数 组 最 大 元 素 
# 按 行 累计 总 和 


y 数 组 作为 输出 的 ， 如 代码 清单 5-4 所 示 。 


# 正 弦 函 数 ( 弧 度 制 ) 


# 开 方 函 数 


# 和 arr9+arr10 效 果 一 样 


下 面 介绍 如 何 通 过 方法 接口 对 数组 进行 合并 和 分 割 ， 如 代码 清单 5-5 所 示 : 


代码 清单 5-5 ”数组 合并 与 分 割 


print "7" "数组 合并 与 分 割 ! 71 
# 合并 

arrll = np.vstack( (arr9,arr10)) 
print arrll 

# result: 

# [[2 1] 

# [1 2] 

# [1 2] 

# [3 4]] 

arrl2 = np.hstack ( (arr9,arr10)) 
print arrl2 

# result 

# [[2 1 1 2] 

# [1 2 3 4]] 

# 分 割 

print no heselit (arrl2;2) 

# result 

# [array([[2, 1], 

# [1, 211), 

# array([[1, 2], [3, 4]1)] 
print np.veplit (arrll,2) 

# result 

# [array([[2, 1], 

# [1, 211), 

# array([[1, 2], [3, 4]])] 


* 代 码 详 见 : 示例 程序 /code/5-2.py 


由 于 篇 幅 所 限 ， 上 面 未 能 将 NumPy 的 所 有 方法 逐一 介绍 ， 以 下 附 一 张 NumPy 上 面 未 涉及 但 却 常 用 的 方法 清单 ， 如 表 5-1 所 示 ， 方便 读者 更 好 地 了 解 NumPy 的 功能 。 


# 纵 向 合并 数组 ， 由 于 与 堆栈 类 似 ， 故 命名 为 Vstack 


# 横 向 合并 数组 


# 将 数组 横向 分 为 两 部 分 


# 数组 纵向 分 为 两 部 分 


表 5-1 


其 他 NumPy 常 用 方法 


方法 效果 或 用 途 返回 类 型 


np.empty 返回 一 个 给 定 规模 的 数组 NumpPy 数组 
np.all 测试 数组 元 系 是 否 均 为 True True 或 False 
np.any 测试 数组 元 素 是 否 有 至 少 一 个 为 True True 或 Fasle 


np.nonzero 返回 数组 非 0 元 系 的 位 置 记录 位 置 元 组 
np.sort 对 数组 元 系 进 行 排序 NumPy 数组 
np.where 返回 数组 满足 条 件 的 元 素 NumpPy 数组 
np.reshape 转换 数组 的 规模 但 不 更 改 其 中 的 数据 NumpPy 数组 
np.reshape 转换 数组 的 规模 NumpPy 数组 
npeye Numpy 数组 
np.transpose 和 矩 阵 转 置 ， 与 .T 效果 相同 NumpPy 数组 


np.std 计算 标准 差 NumpPy 数组 


np.covV 给 定数 据 和 权重 计算 协 方差 矩阵 NumpPy 数组 


5.3 Pandas 


Pandas 模 块 是 一 个 强大 的 数据 分 析 和 处 理工 具 。 它 提供 快速 、 灵 活 、 富 有 表现 力 的 数据 结构 ， 能 为 复杂 情形 下 的 数据 提供 坚实 的 基础 分 析 功 能 。 所 谓 复杂 情形 ， 可 能 有 以 下 3 种 : 
* 数据 库 表 或 Excel 表 ， 包 含 了 多 列 不 同 数据 类 型 的 数据 (如 数字 、 文 字 ) 。 
时间 序 列 类 型 的 数据 ， 包 括 有 序 和 无 序 的 情形 ， 甚 至 是 频率 不 国定 的 情形 。 
* 任意 的 矩阵 型 /二 维 表 / 观 测 统计 数据 ， 克 许 独 立 的 行 或 列 带 有 标签 。 


对 于 数据 科学 家 ， 和 数据 打交道 的 流程 可 以 分 为 几 个 阶段 : 清洗 数据 、 分 析 和 建 模 、 组 织 分 析 的 结果 并 以 图 表 的 形式 展示 出 来 。 举 个 例子 ， 如 果 我 们 要 处 理 多 个 城市 一 段 时 间 内 的 天 气 观测 数据 ， 那 可 
能 会 对 数据 分 析 工 具 提出 以 下 需求 : 处 理 丢 失 的 部 分 数据 记录 、 取 出 某 城市 的 相关 数据 子 集 、 将 分 析 结 果 合 并 、 对 数据 做 分 组 聚合 等 。 幸 运 的 是 ， 这 些 功能 在 Pandas 模 块 中 都 已 经 被 实现 ， 并 且 提 供 了 方便 
的 立 数 接口 。 


接 下 来 ， 将 会 详细 介绍 Pandas 模 块 中 基本 的 高 级 数据 结构 ， 以 及 学 习 如 何 使 用 Pandas 模 块 中 经 典 的 数据 分 析 和 处 理 方法 ， 以 提高 数据 分 析 的 效率 。 

官方 提倡 的 模块 导入 语法 为 : import pandas as pd。 

1.Pandas 中 的 高 级 数据 结构 

为 了 开始 使 用 Pandas， 你 需要 熟悉 两 个 重要 的 数据 结构 : 系列 (Series) 和 数据 框 (DataFrame) 。 有 了 它们 ， 你 可 以 利用 Pandas 在 计算 机 内 存 中 构建 一 个 虚拟 的 数据 库 。 
2. 数 据 杠 


我 们 首先 介绍 数据 框 ， 它 的 结构 与 矩阵 神似 ， 但 与 矩阵 不 同 。 数 据 框 中 每 列表 示 一 个 变量 ， 每 行 则 是 一 次 观测 ， 行 列 交 汇 的 某 个 单元 格 ， 对 应 该 变量 的 某 次 具体 的 观测 值 ， 如 图 5-1 所 示 。 


图 5-1 数据 框 示例 


数据 框 有 行 和 列 的 索引 (index) ， 能 让 你 快速 地 按 索引 访问 数据 框 的 某 几 行 或 某 几 列 ， 在 DataFrame 里 的 面向 行 和 面向 列 的 操作 大 致 是 对 称 的 。 


有 很 多 方法 来 创建 一 个 数据 框 ， 但 最 常用 的 是 用 一 个 包含 相等 长 度 列表 的 字典 或 NumPy 数 组 来 创建 。 需 要 注意 的 是 : 数据 框 创建 时 会 根据 内 置 的 多 种 规则 对 数据 进行 排序 ， 导 致 结果 的 行列 位 置 可 能 不 
一 样 ， 但 数据 的 对 应 关系 不 会 出 现任 何 错位 。 代 码 清单 5-6 为 创建 数据 框 实例 。 


代码 清单 5-6 创建 数据 框 


import pandas as pd # 为 Pandas 取 一 个 别名 pd 
data = {'id': ['Jack', 'Sarah', 'Mike'], 
'age': [18, 35, 20], 
'cash': [10.53, 500.7, 13.6]} 
df = pd.DataFrame (data) # 调用 构造 函数 并 将 结果 赋值 给 df 
print af 
# result: 
# age cash id 
# 0 18 10.53 Jack 
# 1 35 “500.,70 Sarah 
# 2 20 13.60 Mi ke 


* 代 码 详 见 : 示例 程序 /code/5-3.py 


从 上 述 代码 的 输出 可 以 观察 到 : 由 于 没有 显 式 声明 ， 行 索引 自动 分 配 ， 并 且 对 列 名 〈 列 索引 ) 进行 了 排序 。 而 代码 清单 5-7 应 用 了 pd.DataFrame () 中 更 高 级 的 参数 设置 ， 显 式 地 声明 了 列 名 排序 方式 
和 行 索 引 。 


代码 清单 5-7 创建 数据 框 的 高 级 用 法 


df2 = pd.DataFrame (data, columns=['id', 'age', 'cash'],index=['one', 'two', 'three']) 
print df2 
# result: 
# 


id age cash 
# one Jack 18 10.53 
# two Sarah 35 500.70 
# three Mike 20 13.60 


* 代 码 详 见 : 示例 程序 /code/5-3.py 


获取 数据 框 中 的 某 一 列 是 非常 方便 的 ， 我 们 只 需要 呼唤 它 的 名 字 ， 如 代码 清单 5-8 所 示 。 


代码 清单 5-8 ”获取 数据 框 的 某 一 列 


填 埋 井 
乙 ID 上 
区 
卢 
f 


ame: id, dtype: object 


* 代 码 详 见 : 示例 程序 /code/5-3.py 
3. 系 列 


代码 清单 5-8 实 际 上 得 到 了 一 个 系列 。 顾 名 思 义 ， 系 列 是 对 同一 个 属性 进行 多 次 观测 之 后 得 到 的 一 列 结果 。 用 统计 学 的 语言 说 ， 它 们 服从 某 种 分 布 。 我 们 可 以 认为 ， 系 列 是 一 种 退化 的 数据 框 ， 也 可 以 认 
为 它 是 一 种 广义 的 一 维 数组 。 在 默认 情况 下 ， 系 列 的 索引 是 自 增 的 非 负 整数 列 (0，1，2，3，.….) 。 值 得 注意 的 是 ， 同 个 系列 的 数据 共享 一 个 列 名 ， 而 数组 不 要 求 。 在 时 间 序 列 (Time Series) 的 相关 问题 


中 ， 系 列 (Series) 这 一 数据 结构 有 宝贵 的 价值 。 创 建 系列 的 代码 如 代码 清单 -9 所 示 。 


代码 清单 5-9 ”创建 系列 


s = pd.Series({'a': 4, 'b': 9, 'c': 16}, name='number') 
print s 

# result: 

#a 4 

#b 9 

#c 16 

# Name: number, dtype: int64 


* 代 码 详 见 : 示例 程序 /code/5-3.py 
4. 基 础 数据 处 理 方法 
系列 可 以 认为 是 数据 框 的 一 个 子 集 。 因 此 ， 应 首先 关注 系列 的 基础 操作 。 代 码 清单 5-10 为 按 下 标 访 问 数 据 的 实例 。 


代码 清单 5-10 ” 按 下 标 访问 (call-by-index) 


* 代 码 详 见 : 示例 程序 /code/5-3.py 
类 似 于 数组 ， 系 列 支 持 按 索引 访问 内 容 ， 如 代码 清单 5-11 所 示 。 更 有 趣 的 是 ， 系 列 还 支持 类 似 字典 的 访问 方式 一 一 按键 值 ( 列 名 ) 访问 。 


代码 清单 5-11 按 索 引 访 问 (call-by-Index) 


# 如 果 系 列 中 本 身 没有 这 个 键 值 ， 则 会 新 增 一 行 


* 代 码 详 见 : 示例 程序 /code/5-3.py 
同时 ， 作 为 一 种 高 级 数据 结构 ， 系 列 同 样 支持 向 量化 操作 。 也 就 是 说 ， 我 们 能 够 同时 对 一 个 系列 的 所 有 取 值 执行 同样 的 操作 ， 一 致 地 应 用 某 种 方法 ， 如 代码 清单 5-12 所 示 。 


代码 清单 5-12 ”向 量化 操作 (Vectorized operations) 


import numpy as np 
printnp,.sqrt(s) 

# result: 

2::0 


十 
9 


3 
4.0 
530 


b 

CG 

d 
Name: number, dtype: float64 
rint s*s 

result: 

a 16 

b 81 

Cc 256 

d 625 

Name: number, dtype: int64 


间 间 间 砷 砷 砷 口 间 间 砷 着 


* 代 码 详 见 : 示例 程序 /code/5-3.py 


数据 框 可 被 看 作 是 一 个 字典 ， 其 中 字典 的 键 是 系列 对 应 的 名 字 ( 列 名 ) ， 字 典 的 取 值 是 系列 所 有 的 观测 值 。 如 代码 清单 5-6 中 提 到 的 data 变 量 。 因 此 ， 增 、 删 、 改 、 查 等 操作 的 语法 大 致 是 相同 的 ， 如 
代码 清单 5-13 所 示 。 


代码 清单 5-13 ”数据 框 列 的 查 、 增 、 删 


printdf['id'] # 按 列 名 访问 (call-by-column) 
# result: 
# one Jack 

two Sarah 
# three Mike 
# Name: id, dtype: object 
df['rich'] = df['cash'] > 200.0 
printadt 
# result 
# age cash id rich 
# 0 18 10.53 Jack False 
# 1 35 500.70 Sarah True 
# 2 20 13.60 Mike False 
delgdf['rich'] 
printdf 
# result: 
# age cash id 
# 0 18 10.53 Jack 
# 1 35 500.70 Sarah 
# 2 20 13.60 Mike 


* 代 码 详 见 : 示例 程序 /code/5-3.py 


随 着 读者 研究 的 不 断 深入 ， 很 快 便 会 在 阅读 Pandas 官 方 文档 站 的 过 程 中 意识 到 : 许多 数据 框 能 够 支持 的 功能 ， 如 统计 频数 和 分 组 聚集 等 ， 都 能 够 在 系列 下 找到 相似 的 实现 ;只 不 过 数据 框 允许 你 对 多 列 
的 数据 同时 进行 操作 ， 如 以 多 个 标准 (性 别 x 年 龄 ) 分 组 。 


由 于 篇 幅 所 限 ， 在 此 仅 能 给 读者 介绍 基本 的 概念 和 用 法 。 下 面 附 一 张 Pandas 常 用 方法 清单 ， 如 表 5-2 所 示 ， 帮 助 读者 更 快 掌握 利用 Pandas 进 行 数据 分 析 和 处 理 的 基本 要 领 。 


表 5-2 Pandas 常 用 方法 清单 


方法 名 称 效果 或 用 途 返回 类 型 


pd.read csv() 将 .csv 文件 中 的 数据 读 入 内 存 ， 快 速 构 建 数据 框 数据 框 
pd.concat() 按 模 回 或 纵 癌 方 呵 合并 两 个 Pandas 数据 结构 系列 或 数据 框 
pd.get dummies() 将 类 别 变量 转变 为 独 热 编 妈 (One-hot Encoding) 数据 框 
Series.isnull() 判断 某 个 系列 中 是 否 含有 空 值 同 维 的 0-1 系列 
Series.is unique 判断 某 个 系列 中 的 所 有 值 是 否 存在 重复 布尔 值 
Series.value counts() 统计 菏 个 系列 中 所 有 取 值 出 现 的 次 数 统计 所 得 的 系列 
DataFrame.mean() 按 行 或 按 列 分别 计 算 平均 值 系列 或 数据 框 
DataFrame.dropnal) 删除 所 有 缺失 数据 的 行 或 列 数据 框 
DataFrame.drop duplicates() 删除 所 有 重复 的 行 数据 框 


DataFrame.head() 肘 认 返回 数据 杠 中 的 前 五 行 ， 以 验证 数据 样式 数据 框 
Dataframe .tail() 默认 返回 数据 框 中 的 最 后 五 行 数据 框 


由 上 述 方 法 体现 的 功能 可 看 出 ，Pandas 模 块 已 经 为 各 种 数据 分 析 与 处 理 的 刚 需 实现 了 对 应 的 方法 。 在 官方 文档 中 将 能 看 到 更 多 详细 的 参数 设置 说 明 。 相 信 拥 有 了 这 一 把 “瑞士 军刀 ”， 读 者 进行 数据 分 
析 时 将 会 如 鱼 得 水 。Pandas 模 块 支持 我 们 将 数据 快速 读 入 内 人 存 之 中 ， 并 以 此 创建 一 个 数据 框 。 简 而 言 之 ， 有 了 Pandas， 我 们 就 能 拥有 一 个 “内 存 中 的 数据 库 ”。 和 希望 读者 记 住 ， 我 们 能 够 通过 SQL 语句 对 
数据 库 完成 的 操作 ， 在 数据 框 中 都 能 更 有 效率 地 完成 。 唯 一 的 不 足 之 处 是 : 内 存 通常 是 非常 有 限 的 资源 。 


[1] Pandas 官 方 文档 网 址 : http://pandas.pydata.otg/pandas-docs/stable/api.html 


5.4 SaiPy 


在 Python 的 科学 计算 中 ，sciPy 为 数学 、 物 理 、 工 程 等 方面 涉及 的 科学 计算 提供 无 可 蔡 代 的 支持 ， 其 主要 子 模块 汇总 如 表 5-3 所 示 。 它 是 一 个 基于 NumPy 的 高 级 模块 ， 在 符号 计算 、 信 号 处 理 、 数 值 优 
化 等 任务 中 有 突出 表现 ， 覆 盖 了 绝 大 部 分 科学 计算 领域 。 


表 5-3 SciPy 主 要 子 模 块 汇 总 表 


子 模块 名 称 | 相关 领域 / 用 途 摘 述 
scipy.cluster 十 江 的 聚 类 算法 
scipy.constants | 数学 和 物理 第 效 
scipy.fftpack 快速 傅 里 时 变换 
scipy.integrate | 求解 积分 和 利和 做 分 方程 
scipy.linalg 线性 代数 
scipy.ndimage | 维 图 像 处 理 
scipy.signal 言 亿 处 理 
scipy.spatial 宇 团 效 据 结构 和 算法 
scipy.stats 统计 分 布 及 相关 上 晒 数 


我 们 在 5.2 节 中 提 到 ，NumPy 引 入 二 维 数 组 和 矩 阵 ， 使 得 它们 作为 与 表格 最 相似 的 数据 结构 ， 能 极 大 提高 数据 分 析 的 效率 。 

在 NumPy 基 础 上 发 展 而 来 的 SciPy， 拥 有 更 丰富 的 外 延 。 在 此 ， 仅 向 读者 介绍 SciPy 基 础 。 其 中 最 重要 的 是 : “向 量化 思想 ”， 包 括 “ 符 号 计算 ”和 “函数 向 量化 ”。 

1. 符 号 计算 

众所周知 ， 程 序 中 使 用 的 变量 仅 代表 一 个 空间 ， 真 正 参与 运算 的 是 这 个 空间 中 存放 的 内 容 或 取 值 。 也 就 是 说 ， 数 学 中 最 常见 的 代数 表达 式 ， 如 x<+x+1， 在 程序 中 是 没有 意义 的 。 


但 这 就 是 SciPy 的 特别 之 处 。 它 能 够 支持 符号 计算 。 我 们 有 两 种 等 价 的 方式 去 处 理 一 元 n 次 多 项 式 ， 从 而 可 以 不 加 赋值 地 进行 符号 计算 。 其 中 一 种 方式 就 是 使 用 NumpPy 中 的 plot1d 类 。 它 可 以 通过 多 项 式 
系数 或 者 多 项 式 的 根 显 式 地 声明 一 个 多 项 式 ， 并 进行 加 、 减 、 乘 、 除 、 积 分 、 求 导 等 操作 ， 如 代码 清单 5-14 所 示 。 


代码 清单 5-14 ”符号 计算 例子 


# -*- coding:utf-8 - 
from scipy ee 本 二 人 


B 二 PoLlyld([3, 4 ‘51) 
Deint © 
# result: 


2 
# 3x+4x+5 
Brint Pp*p 
# result: 
# 4 3 
#9x+24xt+ ee X + 40x+ > 
print a # 求 p (x) 的 不 定 积 分 ， 指 定常 数 项 为 6 
# res 


#1x+2x+5x+6 


0 # 求 p (x) 的 一 阶 导 数 
# result 
# 6 x ee 4 
P([4， 5 # 计算 每 个 值 代 入 P (x) 的 结果 
# result 
[ 


# array( 69, 100]) 


* 代 码 详 见 : 示例 程序 /code/5-4.py 


代码 清单 5-14 中 输出 的 第 一 个 结果 实际 上 代表 一 个 多 项 式 : 3x<+4x+5。 同 样 地 ， 第 二 个 结果 代表 9x4+24x3+46x2+40x+25. 可 以 说 ，NumpPy 和 SciPyi 上 Python 能 够 完成 科学 计算 的 需求 ， 这 也 给 读者 
一 个 使 用 Python 蔡 代 MATLAB 的 理由 。 在 接 下 来 的 章节 ， 读 者 将 会 看 到 Matplotlib 对 MATLAB 在 绘图 方面 的 模仿 与 改进 。 


2. 函 数 向 量化 
在 MATLAB 中 ， 我 们 把 大 部 分 的 数据 维护 成 向 量 的 形式 。 而 编写 MATLAB 代 码 时 ， 为 了 增强 程序 的 健壮 性 ， 通 常 的 做 法 是 使 函数 接受 向 量 形式 的 参数 传 入 ， 以 达到 高 效 的 运算 或 处 理 效 率 。 


Python 无 法 彻底 地 支持 这 一 点 ， 但 SciPy 很 好 地 弥补 了 这 个 缺 贼 。 有 一 个 很 特别 的 用 法 ， 便 是 将 函数 本 身 作 为 参数 ， 传 递 给 vectorize () 函数 作为 其 参数 ， 经 过 处 理 返回 一 个 能 接受 向 量化 输入 的 函 
如 代码 清单 5-15 所 示 。 


a 
洋 


代码 清单 5-15 ”函数 向 量化 示例 


# =-*=- coding:utf-8 —*- 
import numpy as np 
def agddsubtract (a, b): # 按照 原始 定义 ， 仅 接受 可 比较 的 数字 作为 参数 
if Bs 
return a-b 
else: 
return a+b 
vec agddsubtract = np.vectorize (addsubtract) 
print vec addsubtract ([0, 3, 6, 9], [1, 3, 5, 7]) 
# result: 
#1 67 二 当 ] 


* 代 码 详 见 : 示例 程序 /code/5-4.py 


当 你 使 用 sciPy 模 块 时 ， 你 很 可 能 需要 优化 、 信 号 处 理 、 函 数 变换 等 功能 。 如 果 你 打算 自己 实现 这 些 功能 以 应 对 特殊 的 需求 ， 那 么 这 个 特别 的 函数 将 使 你 的 工作 量 大 大 减少 。 同 时 ， 你 的 代码 将 更 加 优 
雅 。 


带 上 这 种 向 量化 操作 的 思想 深入 学 习 SciPy， 相 信 读 者 会 更 加 容易 上 手 。 


5.5 scikit-learn 


本 节 介绍 的 是 python 在 机 器 学 习 方面 一 个 非常 强力 的 模块 scikit-learn。scikitlearn 是 在 Numpy、scipy 和 Matplotlib 三 个 模块 上 编写 的 ， 是 数据 挖 气 和 数据 分 析 的 一 个 简单 而 有 效 的 工具 。 在 其 
官方 网 站 上 我 们 可 以 看 到 scikit-learn 有 6 大 功能 : 分 类 (Classification) ， 回 归 (Regression) ， 聚 类 (Clustering) ， 降 维 (Dimensionality Reduction) ， 模 型 选择 (Model Selection) 和 预 处 理 
(Preprocessing) 。 下 面 先 将 简单 介绍 机 器 学 习 和 scikit-learn 的 应 用 。 


1. 机 器 学 习 的 问题 
一 般 来 说 ， 我 们 可 以 这 样 理解 机 器 学 习 的 问题 : 我 们 有 n 个 样本 (sample) 的 数据 集 ， 想 要 预测 未 知 数据 的 属性 。 如 果 样 本 的 数据 是 多 维 的 ， 那 么 我 们 就 说 样本 具有 多 个 属性 或 特征 。 
我 们 可 以 将 学 习 问题 分 为 以 下 两 类 : 

1) 有 监督 学 习 (Supervised Learning) 是 指数 据 中 包括 了 我 们 想 要 预测 的 属性 ， 即 目标 变量 ， 而 有 监督 学 习 问题 有 以 下 两 类 : 


` 分 类 (Classification) : 样本 属于 两 个 或 多 个 类 别 ， 我 们 希望 通过 从 已 标记 类 别 的 数据 学 习 ， 来 预测 未 标记 数据 的 分 类 。 例 如 ， 识 别 手写 数字 就 是 一 个 分 类 问题 ， 其 目标 是 将 每 个 输入 向 量 对 应 到 有 穷 
的 数字 类 别 。 从 另 一 种 角度 来 思考 ， 分 类 是 一 种 有 监督 学 习 的 离散 〈 相 对 于 连续 ) 形式 ， 对 于 n 个 样本 ， 一 方 有 对 应 的 有 限 个 类 别 数量 ， 另 一 方 则 试图 标记 样本 并 分 配 到 正确 的 类 别 。 


. 回归 (Regression) : 如 果 和 希望 的 输出 是 一 个 或 多 个 连续 的 变量 ， 那 么 这 个 问题 称 为 回归 ， 比 如 用 三 文 鱼 的 年 龄 和 体重 去 预测 其 长 度 。 


2) 无 监督 学 习 (Unsupervised Learning) : 无 监督 学 习 的 训练 数据 包括 了 输入 向 量 X 的 集合 ， 但 没有 相应 的 目标 变量 。 这 类 问题 的 目标 可 以 是 发 掘 数据 中 相似 样本 的 分 组 ， 被 称 作 聚 类 
(Clustering) ;也 可 以 是 确定 输入 样本 空间 中 的 数据 分 布 ， 被 称 作 密度 估计 (Density Estimation) ; 还 可 以 是 将 数据 从 高 维 空间 投射 到 两 维 或 三 维 空间 ， 以 便 进 行 数据 可 视 化 。 


2.scikit-learn 的 数据 集 


scikit-learn 有 一 些 标准 数据 集 ， 比 如 分 类 的 iris 和 digits 数 据 集 和 用 于 回归 的 波士顿 房价 (Boston House Prices) 数据 集 。 针 对 digits 数 据 集 的 任务 是 给 定 一 个 8*8 像 素数 组 ， 程 序 能 够 预测 这 64 个 像素 
代表 哪个 数字 ， 图 5-2 所 示 。 


Training: 0 lraming: 1 lraining: 2 Traming: 3 


图 5-2 ”手写 数字 识别 示意 图 


下 面 ， 我 们 尝试 用 Python 加 载 digits 数 据 集 ， 如 代码 清单 5-16 所 示 。 


代码 清单 5-16 ”加 载 digits 数 据 集 


from sklearn import datasets 

# 数据 集 类 似 字 典 对 象 ， 包 括 了 所 有 的 数据 和 关于 数据 的 元 数据 (metadata) 。 

# 数据 被 存储 在 .data 成 员 内 ， 是 一 个 n samples*n features 的 数组 。 

# 在 有 监督 问题 的 情形 下 ， 一 个 或 多 个 因 变 量 (response variables) 被 储存 在 .target 成 员 中 
digits = datasets.1oad digits() 

# 例如 在 digits 数 据 集中 ，digits.data 是 可 以 用 来 分 类 数字 样本 的 特征 

print digits.data 


# result: 

# [[ 0. O03 5. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 0 0 0 

# [ 0. 0 . 0. nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 0 Os 0 

# [ 0. 0 . 0. nttp://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 6 9 0 

# http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 

# [ 0. 0; 1. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 6 0 0.] 
# 0。 0 . 2. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 2 0 . 0.] 
# 0 . 0. 10. http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 多 LL 0.]] 


#digits.target 给 出 了 digits 数 据 集 的 目标 变量 ， 即 每 个 数字 图 案 对 应 的 我 们 想 预 测 的 真实 数字 
print digits.target 

# result: 

# [0 1 2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/..., 8 9 8] 


* 代 码 详 见 : 示例 程序 /code/5-5.py 
3.scikit-learn 的 训练 和 预测 


接着 上 面 的 例子 ， 我 们 的 任务 是 给 定 一 幅 像素 图 案 ， 预 测 其 表示 的 数字 。 这 是 一 个 有 监督 学 习 的 分 类 问题 ， 总 共有 10 个 可 能 的 分 类 (数字 0~9) 。 我 们 将 训练 一 个 预测 器 (Estimator) 来 预测 
(Predict) 未 知 样本 所 属 分 类 。 


在 scikit-learn 中 ， 分 类 的 预测 器 是 一 个 Python 对 象 ， 具 有 方法 ft (X，y) 和 predict (test) 方法 。 下 面 这 个 预测 器 的 例子 是 sklearn.svm.SVC， 实 现 了 支持 向 量 机 分 类 。 创 建 分 类 器 需要 模型 参数 ,但 
现在 我 们 暂时 先 将 分 类 器 看 作 是 一 个 黑 盒 。 代 码 清单 5-17 展 现 了 整个 训练 和 预测 的 过 程 : 


代码 清单 5-17 训练 和 预测 


from sklearn import svm 

# 选择 模型 参数 

clf = svm.SVC (gamma=0.0001,C=100) 

# 我 们 的 预测 器 的 名 字 叫 做 clf。 现 在 cl1f 必 须 通 过 fit 方 法 来 从 模型 中 学 习 。 

# 这 个 过 程 是 通过 将 训练 集 传递 给 fit 方 法 来 实现 的 。 我 们 将 除了 最 后 一 个 样本 的 数据 全 部 作为 训练 集 。 
# 进行 训练 

clf.fit(digits.datal:=1],; digits.target[:=1]) 

# 进行 预测 

print clf.predict (digits.data[-1]) 

# result: 8 


* 代 码 详 见 : 示例 程序 /code/5-5.py 


如 图 5-3 所 示 ， 最 后 一 个 像素 图 案 显 示 出 数字 8， 和 我 们 的 预测 结果 一 致 。 关 于 scikit-learn 我 们 暂时 介绍 到 这 里 ， 在 后 面 的 第 8 和 第 9 章 我 们 也 会 用 到 此 模块 。 
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图 5-3 ”手写 数字 识别 的 测试 图 片 


5.6 ”其 他 Python 常 用 模块 


限于 篇 幅 ， 还 有 很 多 Python 处 理 数 据 挖 掘 的 模块 没有 介绍 ， 本 节 将 附 一 个 表格 对 Python 处 理 数 据 挖 掘 常 用 模块 进行 简单 介绍 ， 如 表 5-4 所 示 。 


表 5-4 Python 常用 模块 


模块 名 称 


用 途 
Theano 是 一 个 Python 库 ， 用 来 定义 、 优 化 和 模拟 数学 表达 式 计算 ， 用 于 高 效 地 解决 多 维 数 组 的 


“e999 | 计算 问题 以 及 深度 学 习 框架 
Keras 是 基于 Theano 的 深度 学 习 库 ， 主 要 用 于 搭建 人 工 神 经 网 络 、 上 自 编 码 磊 、 卷 积 神经 网 络 等 
Keras 
这 度 学 习 醒 型 
Gensim Gensim 是 Python 的 目 然 语言 处 理 模块 ， 包 括 了 目 然 语言 主题 模型 ， 用 于 文本 的 主题 挖掘 
ee StatsModels 是 注重 数据 统计 建 模 分 析 的 数据 处 理 模块 ， 它 与 pandas 结合 ， 是 当前 Python 的 一 
个 强大 数据 挖掘 组 合 
Pygame Pygame 是 专 为 电子 游戏 设计 的 Python 模块 
NLTK (Natural Language Toolkit) 是 Python 的 目 然 语言 处 理 模块 ， 包 括 一 系列 的 字符 处 理 和 语 
NLTK 言 统计 模型 。NLTK 和 负 用 于 学 术 俩 究 和 教学 ， 应 用 的 领域 有 语言 学 、 认 知 科学 、 人 工 镶 能 、 信 息 检 
索 、 机 器 学 习 等 
Mlpy Mlpy 是 基于 NumPy 和 SciPy 的 机 可 学 习 模块 ， 是 CPython 的 拓展 应 用 
PyBrain 是 Python 的 一 个 机 需 学 习 模 块 ， 主 要 用 于 处 理 神 经 网 络 、 强 化 学 习 、 无 监督 和 学习、 进 
PyBraln 
化 算法 
Milk 是 Python 的 一 个 机 融和 学 习 工 具 箱 ， 甚 重点 是 提高 监督 分 类 法 与 几 种 有 歼 的 分 类 分 析 : 
SVMs (基于 libsvm)，kNN， 随 机 森林 和 决策 树 等 。 
Pattern 是 Python 的 web 挖掘 模块 ， 它 绑 定 了 Google、Twitter 、Wikipedia API， 提 供 网 络 爬 虫 、 
Pattern HTML 解析 功能 ， 文 本 分 析 包 括 浅 层 规则 解析 、WordNet 接口 、 句 法 与 语义 分 析 、TF-IDF、LSA 等 ， 
还 提供 聚 类 、 分 类 和 图 网 络 可 视 化 的 功能 
Orange 是 一 个 基于 组 件 的 数据 挖掘 和 机 融 学 习 软 件 套 竣 ， 它 的 功能 既 友 好 ， 又 很 强大 ， 拥 有 快 
人 速 而 多 功能 的 可 视 化 编程 前 并 ， 以 便 测 览 数 据 分 析 和 可 钢化 ， 且 绑 定 了 Python 以 进行 脚本 开发 。 
它 包 含 了 完整 的 一 系列 的 组 件 以 进行 数据 预 处 理 ， 并 提供 了 数据 账目 、 过 滤 、 建 模 、 模 式 评估 和 
勘探 的 功能 
MXNet MXNet 是 目前 次 度 学 习 的 最 新 框 杂 ， 其 性 能 和 速度 超越 了 Theano 
XGBoost 是 一 个 速度 快 、 效 果 好 的 boosting 模型 ， 被 封装 成 了 Python 模块 。 该 模块 能 够 月 动 利 
XGBoost 用 CPU 的 多 线程 进行 并 行 ， 同 时 提高 了 算法 精度 。 目 前 有 队伍 借助 该 模块 夺 得 了 Kaggle 数据 挖掘 
比赛 第 一 
5.7 小 结 


本 章 集中 介绍 Python 科 学 计算 与 数据 挖 扬中 被 广泛 认可 的 实用 模块 ， 重 点 介绍 了 它们 包含 的 数据 结构 、 相 关 概 念 和 基础 功能 。 另 外 ， 补 充 介绍 Python 中 一 些 日 趋 成 熟 的 模块 ， 它 们 在 深度 学 习 、 自 然 
语言 处 理 、 大 规模 计算 中 都 有 出 色 表 现 ， 为 读者 后 续 的 学 习 需 求 指明 方向 。 读 者 应 从 上 文 的 阅读 中 把 握 函 数 的 命名 规律 ， 在 实际 任务 中 ， 养 成 查看 官方 文档 的 习惯 。 


5.8 上 机 实验 


1. 实 验 目的 


` 熟悉 Pandas 模 块 中 数据 处 理 操 作 。 


基于 给 定 的 数据 集 (上 机 实验 /data/data.csv) ， 查 找 对 应 方法 ， 完 成 下 列 数据 处 理 操作 。 
. 判断 第 一 列 (Id) 是 否 有 缺失 值 : 如 果 有 ， 则 补 全 。 

. 判断 是 否 有 重复 记录 : 如 果 有 ， 则 删除 至 唯一 。 

. 计算 成 绩 的 平均 值 ， 作 为 新 的 一 列 加 入 到 原 数据 框 中 。 

寻找 平均 分 最 高 的 记录 。 

' 统计 每 个 科目 及 格 (之 60 分 ) 的 人 数 。 

3. 思 考 与 实验 总 结 


1) 如 何 快速 找到 对 应 功能 的 函数 名 称 与 参数 说 明 ? 


2) 上 面 的 处 理 方法 有 何 逻辑 漏洞 ”如 何 改进 ? 


3) 如 何 将 平均 分 的 展示 更 加 人 性 化 ?” 比 如， 保留 一 位 小 数 。 


第 6 章 ”图 表 绘 制 入 | 


读 到 这 里 ， 相 信 读 者 已 经 掌握 了 Python 的 语言 基础 ， 包 括 基 本 概念 和 数据 结构 。Python 作 为 开源 语言 有 一 种 魔力 。 那 就 是 吸引 众多 开发 者 搭建 第 三 方 模块 ， 使 其 能 充分 适应 复杂 现实 的 挑战 ， 在 众多 
诉求 不 同 的 领域 中 取得 出 色 表现 。 


图 表 绘 制 对 于 数据 分 析 和 可 视 化 环节 有 不 可 蔡 代 的 作用 和 意义 ， 它 能 给 人 带 来 直观 的 视觉 冲击 ， 快 速 把 握 数据 的 分 布 和 规律 。 在 本 章 ， 我 们 将 重点 介绍 Matplotlib 和 Bokeh 模 块 ， 见 识 一 下 Python 这 个 
多 面 手 的 图 表 绘 制 能 力 。 


6.1 Matplotlib 


Matplotlib 是 Python 中 最 著名 的 绘图 库 。 其 子 库 pyplot 包 含 大 量 与 MATLAB 相 似 的 函数 调用 接口 ， 这 种 函数 式 编程 的 思想 非常 适合 进行 交互 式 制图 ， 如 代码 清单 6-1 所 示 。 条 形 图 、 扇 形 图 、 散 点 图 、 
等 高 线 图 等 二 维 或 三 维 图 形 都 是 它 的 拿手 好 戏 ( 见 图 6-1) 。 


代码 清单 6-1 ”函数 式 绘图 


# =-*=- coding: utf-8 ~—*— 

import numpy as np 

import matplotlib.pyplot as pilt 
x = np.linspace(0, 10, 1000) 

y = np.sin (x) 

Z = Np.cos (x**2) 


plt.figure (figsize=(8,4)) 

plt.plot (xy label="$sin (x) $",color="red", ]inewigdth=2) 
plt.plot (xy z, "b--", label="$cos (x^2) $") 

plt.xlabel ("Time (s) ") 

plt.ylabel ("Volt") 

Blt.title ("PyPlot First Example") 

plt.ylim(-1.2,1.2) 

plt.legend () 

plt.show () 


* 代 码 详 见 : 示例 程序 /code/6-1.py 


图 6-1 函数 式 编程 示例 


它 的 官方 文档 多 达 几 百 页 ， 相 当 完 备 ， 并 在 “画廊 (Gallery) 【1]” 中 附 有 上 百 幅 示例 图 及 对 应 源 代码 。 这 对 于 新 手 非常 友好 。 你 可 以 在 其 中 找到 同 个 类 型 的 图 片 ， 并 尝试 修改 对 应 代码 进行 创作 ， 如 图 
6-2 所 示 。 


二 
和 - 
一 
用 
硬 F 
i i I 可 | 到 本 “ 庆 是 过 
. A 
Feil mp pi i 
l ， 让 
| 和 面 
mi 
攻 二 融和 硬 
是 Ye | 
EE 


spines demo spines demo bounds spines demo dropped 


图 6-2 ”Matplotlib 官 方 文 档 剪影 
Matplotlib 这 一 节 作 为 Matplotlib 的 入 门 介 绍 ， 将 通过 一 个 综合 绘图 示例 来 理解 和 学 习 Matplotlib 函 数 式 绘图 中 所 涉及 的 基本 概念 。 


首先 介绍 的 概念 是 “ 子 图 ”， 如 图 6-3 所 示 。 它 允许 用 户 将 多 幅 图 同时 绘制 到 一 个 图 片 窗口 之 中 。 这 能 节省 空间 ， 同 时 允许 用 户 从 多 个 角度 展示 和 解读 数据 ， 在 数据 可 视 化 任务 中 非常 实用 。 


subplot (2, 1, 1) 


subplot (2, 2, 3 )| | subplot (2, 2, 4) 


图 6-3 子 图 效果 展示 
在 函数 式 绘图 中 ， 任 何 的 绘图 对 象 都 被 看 作 是 一 条 函数 产生 的 结果 。 因 此 ， 达 到 这 个 效果 的 代码 非常 简单 ， 如 代码 清单 6-2 所 示 。 


代码 清单 6-2 子 图 的 声明 方法 


# -=*- coding:utf-8 =—*- 


import matplotlib.pylab as plt 

import numpy as np 

# 第 一 部 分 

plt.subplot (2,1,1) # 参数 依次 为 : 行 ， 列 ， 第 几 项 
# 第 二 部 分 

plt.subplot (2,2,3) 

# 第 三 部 分 

plt.suplot {22,4) 

plt.show () 


* 代 码 详 见 : 示例 程序 /code/6-1.py 
接 下 来 ， 只 需要 将 绘图 代码 插入 两 个 部 分 之 间 ， 图 像 就 会 在 用 户 指 定 的 位 置 出 现 。 准 确 地 说 ， 插 入 子 图 绘制 方法 plt.subplot () 之 间 ， 如 代码 清单 6-3 所 示 。 


代码 清单 6-3 绘制 子 图 1 一 柱状 图 


# -*- coding:utf-8 —*— 

import matplotlib.pylab as plt 
import numpy as np 

# 第 一 部 分 


plt.subplot (2,1,1) # 参数 依次 为 : 行 ， 列 ， 第 几 项 
n= 12 

X = np.arange (n) 

Yl = (1-X/float(n)) * np.random.uniform(0.5,1.0,n) 

Y2 = (1-X/float(n)) * np.random.uniform(0.5,1.0,n) 

# 利用 plt .lbar (x，y) 绘制 柱状 图 ， 并 指定 柱状 图 颜色 ， 柱 子 边框 颜色 
plt.bar (X, +Y1, facecolor="'#9999ff', edgecolor='white') 
plt.bar (X, -Y2, facecolor="'#ff9999', edgecolor='white') 


tor x Y in 21p (XY1): 
# 利用 plt.text () 指定 文字 出 现 的 坐标 和 内 容 


lt.text (x+0.4, y+0.05, '%.2f' g y ha='center', va= 'bottom') 
利用 plt.ylim(yl，y2) 限 制图 形 打 印 时 对 应 的 纵 坐 标 范围 
t.ylim(-1.25,+1.25) 

第 二 部 分 

It.subplot (2,2,3) 

第 三 部 分 

It.subplot (2,2,4) 
[七 .Show () 


* 代 码 详 见 : 示例 程序 /code/6-1.py 


由 代码 清单 6-3 可 以 看 出 ， 利 用 Matplotlib 的 子 库 pyplot 绘 制图 形 时 ， 与 MATLAB 中 函数 式 绘 图 的 风格 非常 相似 。 无 论 你 需要 的 是 一 个 柱状 图 ， 还 是 显示 在 图 片上 的 文字 ， 甚 至 是 控制 坐标 轴 的 范围 ， 都 
通过 传递 参数 给 对 应 的 绘图 函数 的 方式 来 实现 。 此 时 ， 图 形 的 表现 力 更 加 丰富 了 ， 如 图 6-4 所 示 。 
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加 入 柱状 图 


图 6-4 子 图 绘制 


类 似 地 ， 我 们 继续 加 入 饼 状 图 绘制 代码 和 三 角 遂 数 曲线 绘制 代码 ， 如 代码 清单 6-4 所 示 。 饼 状 图 和 曲线 图 结果 如 图 6-5 所 示 。 值 得 一 提 的 是 : plt.xticks () ，plt.yticks () 能 够 改变 坐标 轴 的 刻度 文字 。 
通常 情况 下 ， 绘 制 三 角 遂 数 曲 线 时 ， 我 们 更 加 关心 nt 及 其 倍数 的 对 应 取 值 ， 而 非 原始 的 坐标 刻度 1，2,，3.……… 


代码 清单 6-4 ”加 入 饼 状 图 和 曲线 图 


# -*- coding:utf-8 一 * 一 

import matplotlib.pylab as plt 
import numpy as np 

# 省 略 第 一 部 分 代码 

第 二 部 分 

It.subplot (2,2,3) 

= 20 

= np.random.uniform(0,1,n) 
It.pie (2Z) 

第 三 部 分 

It.subplot (2,2,4) 

= np.linspace (-np.pi, np.pi, 256,endpoint=True) 


XDO#ONDDG# 


C, Y S = np.cos(X), np.sin (xX) 

1 ot(X, Y C, color="blue", linewidth=2.5, linestyle="-") 

(X, Y S, color="red", linewidth=2.5, linestyle="-") 
X.min()*1.1, XxX.max()*1.1) 

s([=np.pi,y =np.pi/2; 0@; np.pi/2; papil; 

r'$-\pi$', r'$-\pi/2$', r'$0$', r'$+\pi/2$', r'$+\pi$']) 
Y C.min()*1.1, Y C.max()*1.1) 


= 0, | r 
S19 YO0S yy TtLor]) 


+t qd 


* 代 码 详 见 : 示例 程序 /code/6-1.py 


-x 一 郊 /之 0 tAx/2 +x 


加 入 饼 状 图 和 曲线 图 


图 6-5 ” 子 图 绘制 


限于 篇 幅 ， 我 们 仪 能 通过 一 个 简单 的 例子 向 读者 介绍 Matplotlib 中 最 简单 的 使 用 方法 和 思想 。 如 果 读 者 有 更 迫切 的 绘图 或 数据 可 视 化 需求 ， 还 请 移 步 到 Matplotlib 的 “画廊 (Gallery) ”页 面 去 欣赏 和 
发 握 更 符合 表达 需求 的 图 例 。 单 击 对 应 的 图 片 便 可 查看 源 代码 。 


但 为 避免 误导 读者 ， 必 须 澄清 一 点 : 函数 式 绘 图 的 思想 绝 不 是 Matplotlib 的 全 部 。 它 同样 拥有 面向 对 象 式 的 绘图 方法 。 尽 管 函 数 式 绘图 能 快速 出 图 ， 但 有 以 下 缺点 需要 指出 : 
1) 函数 调用 的 方法 影响 效率 。 

2) 图 形 与 内 容 之 间 的 从 属 关系 被 传递 函数 的 方式 所 掩盖 ， 降 低 了 代码 的 可 读 性 。 

3) 对 于 开发 者 而 言 ， 不 能 直接 接触 对 象 ， 操 作对 象 的 数据 是 致命 的 。 

在 上 面 提 及 的 内 容 中 ， 它 们 至 少 涉及 了 以 下 4 个 类 : Figure 类 ，FigureCanvas 类 ，Axes 类 和 Line2D 类 。 有 能 力 的 读者 应 该 朝 着 这 个 方向 ， 继 续 探索 。 


[1] Matplotlib Galletry 网 址 为 : http://matplotlib.org/gallery.html 


6.2 Bokeh 


与 Matplotlib 不 同 ，Bokeh 是 一 款 针 对 浏览 器 中 图 形 演示 的 交互 式 绘图 工具 。 它 的 目标 是 使 用 d3js 样 式 提供 优雅 、 简 洁 新 颖 的 图 形 化 风格 ， 同 时 提供 大 型 数据 集 的 高 性 能 交互 功能 。Bokeh 支 持 用 户 快 
速 创建 交互 式 的 绘图 、 仪 表盘 和 数据 应 用 。 这 对 于 喜爱 d3.js 的 可 视 化 效果 ， 但 不 熟悉 Javascript 的 用 户 有 莫大 的 帮助 。 因 此 ， 在 使 用 Python Notebook 进 行 编程 时 ， 能 将 Bokeh 的 交互 体验 提升 至 最 大 。 


其 最 新 的 官方 文档 为 http://bokeh.pydata.org/en/latest/index.html。 同 样 ， 它 也 为 用 户 提 供 一 个 精彩 的 “画廊 (Gallery) ”以 展示 基础 的 例子 ， 如 图 6-6 所 示 。 


III 


在 此 ， 我 们 利用 一 段 完整 的 代码 来 体验 使 用 Bokeh 画 图 的 效果 ， 如 代码 清单 6-5 所 示 。 


图 6-6 Bokeh 画 万 剪影 


代码 清单 6-5 ”绘制 简单 折线 图 


# =*=- coding:utf-8 —*- 
from bokeh.plotting import figure, output file, Show 
& 二 [Ly 2 .37 dy Dd 


output file("lines.html", title="line plot example") 

# 创建 一 个 fijgure 对 象 ， 附 带 标题 和 坐标 轴 标记 

p = figure (title="simple line example", x axis label='x', y axis label='y') 
# 添加 一 条 线 ， 设 置 图 例 

p.line (x, y, legend="Line A.", line width=2) 

Show (p) 


* 代 码 详 见 : 示例 程序 /code/6-2.py 


当 运 行 代码 之 后 ， 脚 本 会 自动 打开 默认 的 浏览 器 以 展示 结果 ， 图 6-7 便 是 截 自 浏 览 器 界面 。 读 者 可 以 使 用 鼠标 滑动 以 放大 或 缩小 图 形 的 比例 ， 还 可 以 拖 动 图 形 至 合适 的 位 置 。 更 重要 的 是 ， 使 用 右上 角 的 
功能 按钮 进行 更 多 样 的 交互 ， 包 括 放 大 、 复 位 、 保 存 、 调 试 帮助 等 。 


simple line example 


图 6-7 绘制 简单 折线 图 
在 画廊 页 面 ( 中 ， 有 非常 多 生动 的 交互 式 例子 。 例 如 ， 交 互 式 的 电影 检索 工具 ， 如 图 6-8 所 示 (具体 链接 是 http://demo.bokehplots.com/apps/movies) 。 


我 们 可 以 通过 左边 预 设 的 过 滤器 (Filter) 来 改变 右边 图 像 的 样式 和 内 容 。 过 滤器 包括 : 最 小 电影 评论 数 、 票 房 、 首 映 时 间 、 奥 斯 卡 奖杯 数 等 。 可 见 ， 当 前 有 7447 部 电影 被 展示 在 图 6-9 中 。 我 们 将 “最 
小 电影 评论 数 ”提高 到 250， 以 寻找 一 些 经 典 好 片 ， 得 到 2000 年 到 2014 年 的 49 部 经 典 电影 。 
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图 6-9 ”过 滤 后 的 电影 


将 鼠标 有 娘 停 到 某 一 个 具体 的 点 上 ， 交 互 式 响应 将 显示 出 这 个 点 对 应 的 电影 名 称 、 首 映 时 间 和 票房 信息 。 图 6-9 中 的 是 2012 年 上 映 的 《饥饿 游戏 》， 官 方 票房 统计 高 达 4 亿 美元 。 


可 视 化 的 目的 是 汇总 数据 ， 展 示 信 息 。 而 交互 式 绘图 能 够 让 信息 在 合适 的 时 机 才 出 现 。 这 种 交互 体验 优 于 Matplotlib， 但 这 意味 着 开发 者 要 进行 更 多 的 准备 工作 ， 以 支持 用 户 可 能 的 行为 。 如 果 仅 为 绘 
制 简单 的 统计 图 表 ，Matplotlib 将 更 加 高 效 。 


[1] Bokeh 画 历 网 页 http://bokeh.pydata.otg/en/latest/docs/gallery.html 


6.3 ”其 他 优秀 的 绘图 模块 


本 书 重点 讲述 的 并 非 可 视 化 部 分 ， 而 且 篇 幅 有 限 ， 在 此 仅 能 为 读者 简单 开 个 头 。 本 着 负责 任 的 精神 ， 以 下 附 一 张 描述 可 视 化 任务 中 优秀 模块 的 功能 简介 的 表格 ， 如 表 6-1 所 示 ， 和 希望 帮助 读者 提升 视野 ， 
在 需要 深入 学 习 数 据 可 视 化 时 能 更 有 方向 感 。 需 要 指出 的 是 ， 大 部 分 场合 ，Matplotlib 和 Bokeh 都 能 胜任 具体 的 可 视 化 任务 ， 这 也 是 它们 成 为 Python 可 视 化 中 最 出 色 模 块 的 理由 之 一 。 


表 6-1 优秀 绘图 模块 功能 


模块 名 称 用 途 
VisPy 简单 快速 、 可 拓展 性 强 的 交互 式 科 学 (天文 、 物 理 等 ) 绘图 工具 
Glumpy VisPy 的 姐妹 项 目 ， 专注 于 2D/3D 的 高 性 能 数据 可 视 化 工具 
Seaborn 基于 Matplotlib 和 NumPy 等 ， 用 于 制作 表现 力 强 上 且 美 观 的 信息 图 表 
Kivy 快速 开发 应 用 程序 中 创新 的 用 户 交 互 界面 ， 如 多 点 触 控 
Folium 提供 Leaflet.js 的 Python 编程 接口 ， 方便 地 将 数据 可 视 化 于 地 图 之 上 
NetworkX 用 于 人 刨 造 、 操 作 、 研 究 和 绘制 复杂 网 络 的 结构 图 和 机 理 

6.4 小 结 


可 视 化 在 数据 挖掘 中 占据 半壁 江山 ， 甚 至 有 独立 的 数据 可 视 化 职位 。 本 章 主 要 介绍 两 个 Python 可 视 化 模块 : Matplotlib 和 Bokeh ， 并 通过 简明 的 例子 向 读者 介绍 函数 式 绘图 和 人 交互 式 绘图 的 特性 。 


6.5 ”上 机 实验 


1. 实 验 目 的 

:熟练 使 用 绘图 模块 辅助 数据 分 析 与 挖 据 ， 呈 现 分 析 结果 。 
会 查找 官方 文档 ， 通 过 官方 提供 的 例子 来 快速 学 习 基 本 绘图 技巧 。 

2. 实 验 内 容 

阅读 Matplotlib 官 方 文档 ， 查 看 “画廊 (Gallery) ”中 的 例子 并 模仿 绘图 
绘制 箱 线 图 ， 要 求 每 个 箱 不 同色 。 

. 画 出 散 点 图 。 

3. 思 考 与 实验 总 结 

1) 在 实际 的 数据 分 析 中 ， 你 认为 哪些 图 形 有 助 于 展示 数据 ? 


2) 画廊 中 的 例子 是 否 全 面 ? 还 有 哪些 方法 可 以 找到 Matplotlib 绘 图 的 相关 例子 ? 


二 部 分 ” 建 模 应 用 篇 


. 第 7 章 分 类 与 预测 
“第 8 章 和 聚 类 分 析 建 模 
. 第 9 章 关联 规则 分 析 
. 第 10 章 ”智能 推荐 


. 第 11 章 ”时 间 序 列 分 析 


第 / 草 “分 类 与 预测 


从 第 7 章 开 始 ， 我 们 将 深入 了 解数 据 挖 气 中 的 几 大 经 典 算法 ， 并 从 宏观 把 握 每 种 算法 解决 问题 时 的 思路 。 本 书 重 在 理解 算法 原理 和 思想 ， 并 使 用 Python 实现 具体 的 算法 ， 观 察 结果 。 最 后 ， 给 出 上 机 实 
验 供 读者 学 习 和 挑战 


狭义 的 数据 挖掘 (或 机 器 学 习 ) 有 一 个 较为 固定 的 流程 ， 包 括 获取 数据 、 数 据 清洗 、 选 择 合适 模型 、 应 用 算法 求解 、 参 数 调 优 与 验证 等 。 同 时 ， 因 为 相关 任务 往往 受到 | 数据 变化 、 计 算 能 力 和 经 验 性 判 
断 等 的 限制 ， 所 以 这 个 过 程 中 没 人 能 一 劳 永 逸 。 这 个 流程 中 的 每 一 处 细节 处 理 ， 是 数据 挖 握 人 才 的 试金石 。 


分 类 与 预测 是 机 器 学 习 中 有 监督 学 习 任务 的 代表 。 一 般 认为 : 广义 的 预测 任务 中 ， 要 求 估 计 连 续 型 预测 值 时 ， 是 “回归 ”任务 ; 要 求 判 断 因 变量 属于 哪个 类 别 时 ， 是 “分 类 ”任务 。 


7.1 回归 分 析 


什么 是 回归 分 析 ? 回归 分 析 是 一 项 预测 性 的 建 模 技术 。 它 的 目的 是 通过 建立 模型 来 研究 因 变 量 和 自 变 量 之 间 的 显著 关系 ， 即 多 个 自 变量 对 (一 个 ) 因 变 量 的 影响 强度 ， 预 测 数值 型 的 目标 值 。 


回归 分 析 在 管理 、 经 济 、 社 会 学 、 医 学 、 生 物 学 等 领域 得 到 了 广泛 的 应 用 ， 这 种 技术 的 起 源 最 早 可 以 追溯 到 达尔 文 (Charles Darwin) 时 期 。 当 时 ， 他 的 表 兄弟 Francis Galton 正 致力 于 研究 父 代 统 豆 


刀 义 
种 子 尺寸 对 子 代 骂 豆 尺寸 的 影响 ， 采 用 了 回归 分 析 ， 并 同时 在 多 项 研究 中 都 注意 到 这 个 现象 。 在 19 世 纪 高 斯 系统 地 提出 最 小 二 乘 估计 后 ， 回 归 分 析 开 始 莲 勃发 展 。 目 前 ， 回 归 分 析 的 研究 范围 可 分 为 几 大 板 
块 ; 如 下 : 


一 元 线性 回归 
线性 回归 4 多 元 线性 回归 
多 个 因 变 量 与 多 个 自 变量 的 回归 
nm 
基本 假设 不 成 立时 数据 的 修正 
回归 方程 拟 合 效果 的 判断 
回归 上 旺 数 形式 的 选择 
(选择 自 变 量 的 标准 
回归 分 析 4 【逐步 回归 分 析 法 
偏 最 小 二 乘 回 归 
改进 的 参数 估计 方法 4 岭 回归 
主 成 分 回归 
一 元 非 线 性 回归 
韭 线性 回归 1 分 段 回 归 
多 元 非 线 性 回归 


回归 诊断 


二 TR -时 今 -- + hy ， I 时 
含有 定性 变量 的 回归 | 日 下 舍 有害 性 变量 


常用 的 回归 分 析 技 术 是 线性 回归 、 人 逻辑 回归 、 多 项 式 回 归 和 上 岭 回归 等 。 作 为 入 门 书籍 ， 在 此 主要 介绍 前 两 种 模型 的 原理 和 具体 实现 。 


7.1.1 线性 回归 


线性 回归 是 最 简单 的 回归 模型 ， 如 图 7-1 所 示 。 它 的 目的 是 : 在 自 变量 (输入 数据 ) 仅 一 维 的 情况 下 ， 找 出 一 条 最 能 够 代表 所 有 观测 样本 的 直线 (估计 的 回归 方程 ，。 在 自 变量 (输入 数据 ) 高 于 一 维 的 


情况 下 ， 找 到 一 个 超 平面 使 得 数据 点 距离 这 个 平面 的 误差 (Residuals) 最 小 。 而 前 者 的 情况 在 高 中 数学 课本 就 已 经 学 过 ， 它 的 解法 是 普通 最 小 二 乘法 (Ordinary Least Squares, OLS) 。 


图 7-1 ”线性 回归 示意 图 
线性 回归 模型 的 公式 如 下 所 示 。 
f (x) =wix1+w2x2t+***+woxnt+bX1 
其 中 ， 权 重 Wi 和 常数 项 b 是 待 确定 的 。 这 意味 着 将 输入 的 自 变 量 按 一 定 比 例 加 权 求 和 ， 得 到 预测 值 输出 。 
1. 算 法 推导 


重 述 一 人 遍 普通 最 小 二 乘法 是 不 必要 的 ， 我 们 将 详细 介绍 更 容易 推广 到 高 维 情况 的 矩阵 推导 过 程 。 一 般 来 说 ， 数 据 挖掘 算法 都 会 涉及 矩阵 的 表示 、 运 算 和 结果 推导 。 这 是 因为 矩阵 的 本 质 是 一 张 数 表 ， 与 
常见 的 数据 格式 很 贴 合 ; 同时 ， 利 用 抽象 的 矩阵 来 表示 算法 推导 过 程 非常 简洁 。 读 者 将 会 从 后 续 几 个 算法 的 推导 中 逐步 感受 到 。 


假设 矩阵 Xmxn 代 表 m 个 样本 n 维 特征 的 数据 对 应 的 矩阵 ， 且 Xmxn 的 列 向 量 线性 无 关 。 通 常 ， 我 们 会 在 xmxn 的 最 后 一 列 添加 一 列 全 为 1 的 向 量 ， 以 对 应 上 述 公 式 中 提 到 的 截 距 。 此 时 ， 权 重 向 量 
w (n+1) x1= (w1，w2，.…，wn，b) 1， 目 标 是 计算 权重 向 量 使 得 预测 值 Xw 与 真实 值 y 的 均 方 误差 最 小 。 公 式 如 下 : 

minE (w) =|Xow-y|” 

其 中 ，E (w) 可 化 简 为 如 下 公式 : 

E (oj = (Xo-y) T (Xo-y) =wIXIXo-2yIXo+yIy 


由 于 E (w) 是 一 个 凸 函 数 ， 因 此 其 理论 最 小 值 出 现在 偏 导数 全 为 0 处 。 注 意 ， 此 处 是 对 向 量 求 导 ， 要 求 一 些 矩 阵 分 析 或 矩阵 微 积 分 的 计算 经 验 。 


== 2(X XOX 


0 


因为 Xmx (n+1) 的 列 向 量 线性 无 关 ， 所 以 XIX 总 是 可 逆 的 。 化 简 上 式 求 得 : 

w= (XIX) -XIT7 

显然 ， 如 果 Xmxn 退 化 为 一 个 列 向 量 X%， 整 个 推导 过 程 与 简单 线性 回归 f (x) =wx+bx1 对 应 的 普通 最 小 二 乘法 无 异 。 
2. 算 法 实现 


通过 前 面 的 学 习 我 们 知道 ，Python 有 强大 的 第 三 方 扩展 模块 sklearn ( 读 作 scikit-learn) ， 实 现 了 绝 大 部 分 的 数据 挖掘 基础 算法 ， 包 括 线性 回归 。 下 面 我 们 将 通过 举例 说 明 ， 如 何 使 用 sklearn 快 速 实现 
线性 回归 模型 。 这 个 例子 是 经 典 的 波士顿 房价 预测 问题 由 ， 如 表 7-1 所 示 。 


表 7-1 波士顿 房价 预测 的 部 分 数据 


TENEEEEEEDIEEEEEEETIIEEIIEE22 
TI 
090 | | || 0 | 


* 数 据 详 见 : 示例 程序 /data/BostonHousePricing,csv 


网 


直 党 告诉 我 们 : 数据 表 7-1 中 住宅 平均 房间 数列 与 最 终 房 价 一 般 是 成 正比 的 ， 具 有 某 种 线性 关系 。 我 们 利用 线性 回归 来 验证 想法 。 同 时 ， 作 为 一 个 二 维 的 例子 ， 可 以 在 平面 上 绘 出 图 形 ， 进 一 步 观察 医 
形 ， 如 代码 清单 7-1 所 示 ， 效 果 见 图 7-2。 


代码 清单 7-1 线性 回归 sklearn 实 现 


# -*— coding:utf-8 —*— 

import numpy as np 

import matplotlib.pyplot as pilt 
from sklearn.datasets import load boston 

from sklearn.linear model import LinearRegression 
boston = load boston () 

print boston.keys () 

# result: 
# ['data', 'feature names', 'DESCR', 'target'] 
print boston.feature names 


# result: 

# ['CRIM' 'ZN' 'INDUS' 'CHAS' 'NOX' 'RM' 'AGE' 'DIS' 'RAD' 'TAX' 'PTRATIO' 'B' 'LSTAT'] 
# print boston.DESCR # 取消 注释 并 运行 ， 可 查看 数据 说 明文 档 

X = boston.data[:, np.newaxis, 5] 

y = boston.target 

lm = LinearRegression () # 声明 并 初始 化 一 个 线性 回归 模型 的 对 象 

]m.Eit (x, y) # 拟 合 模型 ， 或 称 为 训练 模型 


print u' 方 程 的 确定 性 系数 (R^2): %$.2f' g% lm.score (x, y) 


# result: 方程 的 确定 性 系数 (R^2): 0.48 
lt.scatter (x, y, color='green') # 显示 数据 点 
t.plot (x, lm.predict (X) ，color='blue'，1Linewidqth=3) # 画 出 回归 直线 


xlabel ('Average Number of Rooms per Dwelling (RM) ') 
.ylabel ('Housing Price') 

.title('2D Demo of Linear Regression') 

.Show () 


ee | 
Tr rt 
. 


emer me 


* 代 码 详 见 : 示例 程序 /code/7-1-1.py 


7.1.2” 风 辑 回 归 


分 类 和 回归 二 者 不 存在 不 可 逾越 的 鸿沟 。 以 波士顿 房价 预测 为 例 : 如 果 将 房价 按 高 低 分 为 “高 级 ”、“ 中 级 ”和 “普通 ”三 个 档次 ， 那 么 这 个 预测 问题 也 属于 分 类 问题 。 当 然 ， 我 们 要 注意 保持 训练 集 
和 测试 集 的 一 致 性 。 如 果 是 住房 档次 的 类 别 预测 问题 ， 我 们 首先 应 该 将 原始 数据 按 不 同 价格 区 间 分 档 ， 改 写 数 据 后 再 进行 后 续 步 又 。 


2D Demo of Linear Regression 


Housing Price 


3 4 9 6 / 8 9 


/ | 10 
Average Number of Rooms per Dwelling (RM) 


图 7-2 ”线性 回归 示例 图 


准确 地 说 ， 人 逻辑 回归 (Logistic Regression) 是 对 数 几 率 回 归 ， 属 于 广义 线性 模型 (GLM) ， 它 的 因 变 量 一 般 只 有 0 或 1。 读 者 需要 明确 一 件 事情 : 线性 回归 并 没有 对 数据 的 分 布 进行 任何 假设 ， 而 逻辑 
回归 隐 合 了 一 个 基本 假设 h: 每 个 样本 均 独 立 服 从 于 伯 努 利 分 布 (0-1 分 布 ) 。 伯 努 利 分 布 属于 指数 分 布 族 ， 这 个 大 家 族 还 包括 : 高 斯 ( 正 态 ) 分 布 、 多 项 式 分 布 、 泊 松 分 布 、 伽 马 分 布 、Dirichlet 分 布 等 。 


事实 上 ， 假 设 数据 服从 某 类 指数 分 布 ， 我 们 可 以 由 线性 模型 拓展 出 一 类 广义 线性 模型 ， 即 通过 非 线 性 的 关联 函数 (Link Function) 将 线性 函数 映射 到 其 他 空间 上 ， 从 而 大 大 扩大 了 线性 模型 本 身 可 解决 
的 问题 范围 。 根 据 数理 统计 的 基础 知识 ， 指 数 分 布 的 概率 密度 函数 可 抽象 地 表示 为 : 


PQy; 71)= by 


其 中 ，n 是 待定 的 参数 ，T (y) 是 充分 统计 量 , 通常 T (y) =y。 


7 1(y)—a(n) 


而 伯 努 利 分 布 的 概率 密度 函数 为 : 


( y ;h) = (1 h)? 


其 中 ，h 是 由 假设 衍生 的 关联 函数 ，y 的 可 能 取 值 为 0 或 1。 值 得 注意 的 是 ， 当 y=1 时 ，pP (y; h) =h。 也 就 是 说 ，h 表 征 样本 属于 正 类 (类 别 “1”) 的 概率 。 对 照 如 下 公式 ， 今 ""( 古 )， 可 得 : 


这 便 是 大 名 忆 蜡 的 Logistic 冰 数 ， 亦 称 Sigmoid 浮 数 ， 如 图 7-3 所 示 。 因 为 它 的 消 数 形 如 字母 “S”.。 


-0 -4 一: 0 2 4 0 


图 7-3 Logistic 函数 


观察 图 像 可 知 ， 当 指数 分 布 的 自然 参数 n 在 (-c，+co) 变化 时 ，h 的 取 值 范围 恰好 为 (0，1) 。 由 于 h 表 征 样本 属于 正 类 (类 别 “1”) 的 概率 ,通常 将 h 大 于 某 个 阅 值 (如 0.5) 的 样本 预测 为 “属于 正 
类 (1) ”， 否 则 预测 结果 为 “属于 负 类 (0) ”。 


由 基本 假设 ，n=wTx。 给 定 x， 目 标 函 数 为 


| 
h(x)= ELT(y)|x]= Ely|x]= p(y=1|x;w)=h=—— 
lt+e ~ 


上 了 式 表明 ， 我 们 最 终 目标 是 根据 数据 确定 合适 的 一 组 权重 w。 在 对 原始 输入 进行 加 权 组 合 之 后 ， 通 过 天 联 函数 做 非 线 性 变换 ， 得 到 的 结果 表示 样本 x 属 于 正 类 的 概率 。 因 此 ， 关 联 函 数 亦 称 为 “激活 于 
数 ”， 如 同 神经 元 接受 到 足够 的 刺激 ， 才 会 变 得 兴 


通常 ， 确 定 权重 w 采 用 的 方法 是 : 最 大 似 然 估计 (Maximum Likelihood Estimation) 。 这 在 任何 一 本 数理 统计 教材 中 都 有 讲 到 。 在 此 ， 通 过 一 个 简单 的 例子 来 重 温 它 的 思想 。 


例如 一 枚 来 自 赌场 的 硬币 ， 有 “ 正 ”“ 反 ”两 面 。 这 枚 硬币 对 应 了 一 个 未 知 的 参数 : 00， 即 抛 出 正面 的 概率 。 于 是 你 重复 抛 这 枚 硬币 10000 次 ， 其 中 有 8000 次 都 是 正面 。 基 于 这 个 事实 (数据 ) ， 我 们 
不 会 再 愿意 相信 “硬币 抛 出 正 反 两 面 的 概率 都 是 0.5” 这 条 假设 ， 而 更 倾向 于 认为 “这 枚 硬币 抛 出 正面 的 概率 是 0.8”， 即 n0=0.8。 这 便 是 最 大 似 然 估 计 的 思想 : 基于 事实 、 样 本 结果 或 数据 等 ， 来 估计 ( 确 
认 ) 一 个 概率 模型 的 关键 参数 。 这 未 必 是 完全 正确 的 ， 却 是 迄今 为 止 最 好 的 。 


算法 实现 


工程 中 求解 逻辑 回归 更 倾向 于 选择 一 些 迭 代 改 进 的 算法 ， 如 牛顿 方法 、 梯 度 下 降 等 。 它 们 会 直接 对 解 空 间 进 行 部 分 搜索 ， 找 到 合适 的 结果 便 停 止 寻 优 。 建 议 读者 在 入 门 时 首先 掌握 scikit-learn 中 的 逻辑 
回归 实现 算法 ， 如 代码 清单 7-2 所 示 。 


代码 清单 7-2 ”逻辑 回归 sklearn 实 现 


# =-*- coding:utf8 ~-—*— 
import Pandas as pd 
from sklearn.linear model i mport Logisti cRegressi on, RandomizedLogisticRegression 

from sklearn.cross _Va] idation import train test split 

# 导入 数据 并 观察 

data = pd.read csv('http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../data/LogisticRegression.csv', encoding="'utf-8') 
# print data. head (5) # 查看 数据 框 的 头 五 行 
# 将 类 别 型 变量 进行 独 热 编码 (one-hot encoding) 


data dum = pd.get dummies (data, prefix='rank', columns=['rank'], drop first=True) 
print data dum.tail (5) # 查看 数据 框 的 最 后 五 行 

# result: 

# admit gre gpa rank 2 rank 3 rank 4 

# 395 0 620 工 .0 0.0 0.0 

# 396 0 560 3.04 0.0 m0) 0.0 

# 397 0 460 2.63 1.0 0.0 0.0 

# 398 0 700 3.65 下 -9 0.0 0.0 

# 0 600 3.89 0.0 1:0 0.0 

# 切 分 训练 集 和 测试 集 

Xx Si xX test, y train, y test = train test split(data dum.ix[:, 1:], data dum.ix[:, 0], test size=.1, random state=520) 


lr = LogisticRegression () # 建立 LR 模型 
1r.f Fit (X train, y train) # 用 处 理 好 的 数据 训练 模型 
print ' 这 辑 回 归 的 淮 确 率 为 : {0: .2f}%'.format (lr.score(X test, y test) *100) 


* 代 码 详 见 : 示例 程序 /code/7-1-2.py 


1] 在 skleatn 的 安装 文件 中 ， 已 包含 此 问题 对 应 的 数据 集 。 


7.2 决策 树 
决策 树 方法 在 分 类 、 预 测 、 规 则 提取 等 领域 有 着 广泛 应 用 。 在 20 世 纪 70 年 代 后 期 和 80 年 代 初 期 ， 机 器 学 习 研 究 者 上 Ross Quinilan 提 出 了 1D3 算 法 以 后 ， 决 策 树 在 机 器 学 习 、 数 据 挖 掘 领域 得 到 极 大 的 发 
展 。Quinilan 后 来 又 提出 了 C4.5， 成 为 新 的 监督 学 习 算 法 。1984 年 几 位 统计 学 家 提出 了 CART 分 类 算法 。1D3 和 CART 算 法 大 约 同 时 被 提出 ， 但 都 是 采用 类 似 的 方法 从 训练 样本 中 构建 决策 树 。 


决策 树 是 树 状 结构 ， 它 的 每 一 个 叶 节点 对 应 着 一 个 分 类 ， 非 叶 节 点 对 应 着 在 某 个 属性 上 的 划分 ， 根 据 样本 在 该 属性 上 的 不 同 取 值 将 其 划分 成 若干 个 子 集 。 对 于 非 纯 的 叶 节 点 ， 多 数 类 的 标号 给 出 到 达 这 
个 节点 的 样本 所 属 的 类 。 构 造 决策 树 的 核心 问题 是 在 每 一 步 如 何 选择 适当 的 属性 对 样本 做 拆 分 。 对 一 个 分 类 问题 ， 从 已 知 类 标记 的 训练 样本 中 学 习 并 构造 出 决策 树 是 一 个 自 上 而 下 、 分 而 治之 的 过 程 。 常 用 
的 决策 树 算法 见 表 7-2。 


表 7-2 决策 树 算 法 分 类 


决策 树 算法 算法 描述 

其 核心 是 在 决策 树 的 各 级 节点 上 ， 使 用 信息 增益 作为 属性 的 选择 标准 ， 来 帮助 确定 每 个 节点 应 
ID3 算法 

采用 的 合 适 属 性 
ei C4.5 决策 树 生 成 算法 相对 于 ID3 算法 的 重要 改进 是 使 用 信息 增益 率 来 选择 节点 属性 。C4.5 算法 
罗 既 能 够 处 理 离散 的 描述 属性 ， 也 可 以 处 理 连续 的 描述 属性 
C50 竹 法 | C5.0 在 C4.5 异 法 的 修订 版 ,到 用 于 处 理 大 数据 案 ， 采用 Boosting 方式 并 咒 模 型 准确 府 ， 根 据 能 
| 够 和 涡 来 最 大 信息 增益 的 字段 拆 分 样本 

A CART 决策 树 是 一 种 ee 通过 构建 树 、 修 剪 树 、 评 佑 树 来 构建 


一 个 二 又 树 。 当 终结 点 是 量 时 ， 该 树 为 回归 树 ; 当 终 结 点 是 分 类 变量 ,该 树 为 分 类 树 
7.2.1 1D3 算 法 


1D3 算 法 基于 信息 来 选择 最 佳 测 试 属性 。 它 选择 当前 样本 集中 具有 最 大 信息 增益 值 的 属性 作为 测试 属性 。 样 本 集 的 划分 则 依据 测试 属性 的 取 值 进行 ， 测 试 属性 有 多 少 不 同 取 值 就 将 样本 集 划 分 为 多 少子 
样本 集 ， 同 时 决策 树 上 相当 于 该 样本 集 的 节点 长 出 新 的 叶子 节点 。1D3 算 法 根据 信息 论 理论 ， 采 用 划分 后 样本 集 的 不 确定 性 作为 衡量 划分 好 坏 的 标准 ， 用 信息 增益 值 度量 不 确定 性 : 信息 增益 值 越 大 ， 不 确定 
性 越 小 。 因 此 ，1D3 算 法 在 每 个 非 叶子 节点 上 选择 信息 增益 最 大 的 属性 作为 测试 属性 ， 这 样 可 以 得 到 当前 情况 下 最 纯 的 拆 分 ， 从 而 得 到 较 小 的 决策 树 。 


1. 基 本 原理 


设 S 是 s 个 数据 样本 的 集合 。 假 定 类 别 属性 具有 m 个 不 同 的 值 : Ci (i=1，2，…，m) 。 设 s 是 类 Ci 中 的 样本 数 。 对 一 个 给 定 样本 ， 总 信息 为 


A = -> Plogs(P) 


其 中 ，P 是 任意 样本 属于 C 的 概率 ， 一 般 可 以 用 :估计 


若 一 个 属性 A 具有 k 个 不 同 的 值 {a1，a2，.…，a}， 利 用 属性 A 将 集合 Ss 划分 为 个 子 集 {S1，S2，.…，Sj}， 其 中 Sj 包含 了 集合 S 中 属性 A 取 值 为 a 的 样本 。 若 选择 属性 人 A 为 测试 属性 ， 则 这 些 子 集 就 是 从 集合 5 的 
节 氮 生长 出 来 的 新 的 叶 节 点 。 设 sj 是 子 集 9j 中 类 别 为 C 的 样本 数 ， 则 根据 属性 A 划 分 样本 的 信息 类 值 为 


其 中 30， 和 5 是 子 集 5 中 类 别 为 C 的 样本 的 概率 . 
用 属性 A 划 分 样本 集 S 后 所 得 的 信息 增益 (Gain) 为 : 


Gain (A) =I (sS1，s>，…，sn) -E (A) 


显然 E (A) 越 小 ， Gain (A) 的 值 越 大 ， 说 明 选 择 测试 属性 A 对 于 分 类 提供 的 信息 越 大 ， 选 择 A 之 后 分 类 的 不 确定 程度 就 越 小 。 属 性 A 的 k 个 不 同 的 值 对 应 样本 集 S 的 k 个 子 集 或 分 支 ， 通 过 递归 调用 上 述 
过 程 (不 包括 已 选择 的 属性 ) ， 生 成 其 他 属性 作为 节点 的 子 节点 和 分 支 来 生成 整 棵 决策 树 。1D3 决 策 树 算法 作为 一 个 典型 的 决策 树 学 习 算 法 ， 其 核心 是 在 决策 树 的 各 级 节点 上 都 用 信息 增益 作为 判断 标准 进行 
属性 的 选择 ， 使 得 在 每 个 非 叶子 节点 上 进行 测试 时 ， 都 能 获得 最 大 的 类 别 分 类 增益 ， 使 分 类 后 数据 集 的 业 最 小 。 这 样 的 处 理 方 法 使 得 树 的 平均 深度 最 小 ， 从 而 有 效 地 提高 分 类 效率 。 


2. 算 法 实现 

1D3 算 法 的 详细 实现 步骤 如 下 : 

1) 对 当前 样本 集合 ， 计 算 所 有 属性 的 信息 增益 。 

2) 选择 信息 增益 最 大 的 属性 作为 测试 属性 ， 把 测试 属性 取 值 相同 的 样本 划 为 同一 个 子 样本 集 。 

3) 若 子 样本 集 的 类 别 属 性 只 含有 单个 属性 ， 则 分 支 为 叶子 节点 ， 判 断 其 属性 值 并 标 上 相应 的 符号 之 后 返回 调用 处 ; 否则 对 子 样本 集 递归 调用 本 算法 。 


泰坦 尼克 生还 预测 ， 见 表 7-3。 


我 们 通过 举例 说 明 : 使 用 scikit-learn 建 立 基 于 信息 灼 决策 树 模 型 。 这 个 例子 是 经 典 的 Kagglel1]101 问 题 


Survived | Passengerld | Pclass Age 
male 22 


female 38 


female 20 


female 35 


male | 35 


为 了 方便 说 明 ， 数 据 集 有 许多 属性 被 删除 了 。 通 过 观察 可 知 : 列 Survived 是 指 是 否 存 活 ， 是 类 别 标签 ， 属于 预测 目标 ; 列 Sex 的 取 值 是 非 数值 型 的 。 我 们 在 进行 数据 预 处 理 时 应 该 合理 应 用 Pandas 的 功 
能 ， 让 数据 能 够 被 模型 接受 。 具 体 代码 如 代码 清单 7-3 所 示 。 


| 一 一 一 一 一 一 
: 


代码 清单 7-3 1D3 算 法 预测 生还 者 


# -*- coding:utf-8 一 * 一 

# 使 用 ID3 算 法 进行 分 类 

import pandas as pd 

from sklearn.tree import DecisionTreeClassifier as DTC, export graphviz 


data = pd.read csv('http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../data/titanic data.csv', encoding='utf-8') 
data.drop (['PassengerId'], axis=1, inplace=True) # 会 弃 ID 列 ， 不 适合 作为 特征 
# 数据 是 类 别 标 签 ， 将 其 转换 为 数 ， 用 1 表示 男 ，0 表 示 女 

data.loc[datal[l'Sex'] == 'male', 'Sex'] = 1 

data.loc[datal[l'Sex'] == 'female', 'Sex'] = 0 

data.fillna(int (data.Age.mean()), inplace=True) 

print data.head(5) # 查看 数据 

X = data.iloc[:, 1:3] # 为 便于 展示 ， 未 考虑 年 龄 〈 最 后 一 列 ) 

y = data.iloc[:, 0] 

dtc = DIC (criterion='entropy') # 初始 化 决策 树 对 象 ， 基 于 信息 炳 
dtc.fit (x, y) # 训练 模型 


print ' 输 出 准确 座 : '，dtc.score (X,y) 
# 可 视 化 决策 树 ， 寻 出 结果 是 一 个 qot 文 件 ， 需 要 安装 Graphviz 才 能 转换 为 .pdf 或 .png 格 式 

with open('http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../tmp/tree.dot', 'w') as f: 
f = export graphviz (dtc, feature names=X.columns, out file=f) 


* 代 码 详 见 : 示例 程序 /code/7-2.py 


运行 代码 后 ， 将 会 输出 一 个 tree.dot 的 文本 文件 。 为 了 进一步 将 它 转 换 为 可 视 化 格式 ， 需 要 安装 Graphviz ( 跨 平台 的 、 基 于 命令 行 的 绘图 工具 ) ， 再 在 命令 行 中 以 如 下 方式 编译 。 


dot 
do 


— Tpdf tree.do 
— Tpng tree.do 


-oO tree.pdf 
-oO tree.png 


td 


生成 的 效果 图 如 图 7-4 所 示 。 


Sex = =0.5 
entropy=0.9607 


samples=891 
value=[349，342|] 


True False 


Pclass 一 =2.3 Pclass 一 =1.5 
entropy=0.8237 entropy=0.6992 
samples=314 samples=3577 
value=[81 ,233|] value=|468 ，109 | 


Pclass 一 =1.5 Pclass 一 =2.3 
entropy=0.2988 i i entropy=0.380 
samples=170 samples=455 
value=[9,161] value=[391, 64| 


samples=144 samples=122 
value=|72，72|] value=|77，435 |] 


entropy=0.2039 entropy=0.3983 entropy=0.6281 entropy=0.2 722 
samples=94 samples=76 samples=108 samples=347 
value=[3，91| value=[6, 70| value=[91 ,17] value=|300，47| 


图 7-4 ”决策 树 可 视 化 效果 图 


7.2.2 ”其 他 树 模型 


1 


性 


之 一 


1D3 算 法 是 决策 树 系 列 中 的 经 典 算法 之 一 ， 包 含 了 决策 树 作为 机 器 学 习 算法 的 主要 思想 。 但 1D3 算 法 在 实际 应 用 中 有 许多 不 足 ， 所 以 在 此 之 后 提出 了 大 量 的 改进 策略 ， 如 C4.5 算 法 、C5.0 算 法 和 CART 算 
在 这 一 节 中 ， 我 们 将 简要 介绍 这 三 种 决策 树 算法 。 常 用 的 决策 树 算法 还 有 SLIQ 算 法 、SPRINT 算 法 、CHAID 算 法 和 PUBLIC 算 法 等 。 


由 于 1D3 决 策 树 算法 采用 信息 增益 作为 选择 测试 属性 的 标准 ,会 偏向 于 选择 取 值 较 多 的 ， 即 所 谓 高 度 分 支 属 性 ， 而 这 类 属性 并 不 一 定 是 最 优 的 属性 。 同 时 ，1D3 算 法 只 能 处 理 离散 属性 ， 对 于 连续 型 的 属 
在 分 类 前 需要 对 其 进行 离散 化 。 为 了 解决 倾向 于 选择 高 度 分 支 属性 的 问题 ， 人 们 采用 信息 增益 率 作为 选择 测试 属性 的 标准 ， 这 样 便 得 到 C4.5 决 策 树 算法 。 


1.C4.5 算 法 

C4.5 是 基于 1D3 算 法 进行 改进 后 的 一 种 重要 算法 ， 它 是 一 种 监督 学 习 算法 ， 其 目标 是 通过 学 习 ， 找 到 一 个 从 属性 值 到 类 别 的 映射 关系 ， 并 且 这 个 映射 能 用 于 对 新 的 未 知 类 别 的 实体 进行 分 类 。 
C4.5 算 法 的 优点 是 : 

1) 产生 的 分 类 规则 易于 理解 ， 准 确 率 较 高 。 

2) 改进 了 ID3 算 法 的 缺点 : 使 用 信息 增益 选择 属性 时 偏向 于 选择 高 度 分 支 属 性 。 

3) 相 比 于 ID3 算 法 ， 能 处 理 非 离散 数据 或 不 完整 数据 。 

C4.5 算 法 的 缺点 是 : 

1) 在 构造 树 的 过 程 中 ， 需 要 对 数据 集 进行 多 次 的 顺序 扫描 和 排序 ， 因 而 导致 算法 的 低 效 。 

2) 当 训 练 集 大 小 超过 内 存 上 限时 程序 无 法 运行 ， 故 只 适合 能 够 驻 留 于 内 存 的 数据 集 。 

2.C5.0 算 法 


C5.0 算 法 是 C4.5 算 法 的 修订 版 ， 适 用 于 处 理 大 数据 集 ， 采 用 Boosting 方 式 提高 模型 准确 率 ， 又 称 为 Boosting Trees， 在 软件 上 计算 速度 比较 快 ， 占 用 的 内 存 资 源 较 少 。C5.0 作 为 经 典 的 决策 树 模型 算法 
， 可 生成 多 分 支 的 决策 树 ，C5.0 算 法 根据 能 够 带 来 的 最 大 信息 增益 的 字段 拆 分 样本 。 第 一 次 拆 分 确定 的 样本 子 集 随后 再 次 拆 分 ， 通 常 是 根据 另 一 个 字段 进行 拆 分 ， 这 一 过 程 重复 进行 直到 样本 子 集 不 能 


再 被 拆 分 为 止 。 最 后 ， 重 新 检查 最 低层 次 的 拆 分 节点 ， 那 些 对 模型 值 没 有 显著 贡献 的 样本 子 集 被 噜 除 或 者 修剪 。 


C5.0 较 其 他 决策 树 算法 的 优势 在 于 : 

1) C5.0 模 型 在 面 对 数 据 遗 漏 和 输入 字段 很 多 的 问题 时 非常 稳健 。 

2) C5.0 模 型 比 一 些 其 他 类 型 的 模型 易于 理解 ， 模 型 输出 的 规则 有 非常 直观 的 解释 。 
3) C5.0 也 提供 强大 的 技术 支持 以 提高 分 类 的 精度 。 


3.CART 算 法 


分 类 回归 树 (Classification And Regression Tree，CART) 算法 最 早 由 Breiman 等 人 提出 ， 现 已 在 统计 领域 和 数据 挖掘 技术 中 普遍 使 用 ，Python 中 的 scikit-learn 模 块 的 Tree 子 模块 主要 使 用 CART 算 
法 来 实现 决策 树 。 


实际 上 ，Breiman 在 1984 年 就 提出 : “用 于 解决 分 类 问题 的 树 模型 和 用 于 处 理 回归 问题 的 树 模 型 具有 相似 之 处 ”。 这 也 是 CART 算 法 名 称 的 由 来 ， 它 既 能 胜任 “分 类 ”任务 ， 也 能 满足 “回归 ”的 需 
求 。 我 们 将 利用 CART 算 法 对 数据 点 进行 回归 处 理 来 简要 解释 CART 如 何 适 用 于 回归 任务 ， 以 防 读者 感到 困惑 。 


图 7-5 中 的 数据 由 正弦 函数 sin (x) 随机 生成 。 可 以 明显 观察 到 : 由 CART 算 法 生成 的 回归 线 对 应 一 个 阶梯 函数 。 用 生成 图 7-4 时 提 到 的 方法 ， 我 们 将 CART 模 型 内 部 的 分 类 规则 可 视 化 ， 如 图 7-6 所 示 。 


0 Declslon Tree Regression 


一 max depth=2 
] .3 *°*e date 


target 
SS 


一 ] 0 ] 2 3 4 4 6 
data 


图 7-5 ”CART 和 工法 用 作 回 归 问 题 


X 一 =3.1328 
mse=0.5471 


samples=80 
value=0.1222 


True False 


X 一 =0.9139 X = =3.8502 
mse=0.2314 mes=0.1244 


samples=5 1 samples=29 
value=0.5712 value=—0.6675 


mes=0.1919 mse=0.1479 mse=0.1241 mse=0.0407 
samples=11 samples=40 samples=14 samples=15 
value=0.0524 value=0.7138 value=—0.4519 value= 一 0.8080 


图 7-6 ”CART 决 策 规 则 可 视 化 


读者 可 以 在 此 按 下 “和 暂停 键 ”， 仔 细 思 考 图 7-5 与 图 7-6 的 联系 。 由 于 决策 树 的 特性 ， 一 维 自 变量 仅 能 体现 为 阶梯 函数 (不 可 能 出 现 斜 线 或 曲线 ) 。 但 考虑 极限 情况 ， 阶 梯 函 数 可 以 允 近 一 条 曲线 。 这 里 
可 以 认为 : 在 仪 允许 用 阶梯 函数 做 回归 的 条 件 下 ， 算 法 达到 了 均 方 误差 最 小 的 要 求 。 


CART 算 法 采用 与 传统 统计 学 完全 不 同 的 方式 构建 预测 准则 ， 它 是 以 二 又 树 的 形式 给 出 ， 易 于 理解 、 使 用 和 解释 。 由 CART 算 法 构建 的 预测 树 在 很 多 情况 下 比 常 用 的 统计 方法 构建 的 代数 预测 准则 更 加 准 
确 ， 而 且 数 据 越 复杂 、 变 量 越 多 ， 算 法 的 优越 性 就 越 显著 。 模 型 的 关键 在 于 预测 准则 的 构建 。 


它 是 一 种 二 分 递归 分 割 技术 ， 把 当前 样本 划分 为 两 个 子 样本 ， 使 得 生成 的 每 个 非 叶子 结 点 都 有 两 个 分 支 ， 因 此 CART 算 法 生成 的 决策 树 是 结构 简洁 的 二 叉 树 。 由 于 CART 算 法 构成 的 是 一 个 二 叉 树 ， 它 在 
每 一 步 的 决策 时 只 能 是 “是 ”或 者 “ 否 ”， 即 使 一 个 属性 有 多 个 取 值 ， 也 是 把 数据 分 为 两 部 分 。 在 CART 算 法 中 主要 分 为 两 个 步骤 : 第 一 步 是 将 样本 递归 划分 进行 建树 过 程 ; 第 二 步 是 用 验证 数据 进行 剪 枝 。 


[1] Kaggle: 世界 上 最 大 的 数据 科学 家 社区 ， 常 年 开放 数据 控 气 挑战，101 是 最 简单 的 练习 题 。 


7.3 ”人工 神 经 网 络 


人 脑 是 一 种 强大 的 信息 处 理 装置 ， 在 视觉 、 听 觉 、 语 言 知 识 和 学 习 方面 是 机 器 无 法 替代 的 。 通 过 前 面 两 节 对 回归 问题 的 讲述 ， 我 们 知道 可 以 让 机 器 “学 习 ” 使 它 拥有 某 种 能 力 去 为 人 类 服务 。 而 人 脑 与 
计算 机 最 大 的 不 同 是 计算 机 的 处 理 器 是 有 限 的 ， 而 人 脑 包含 着 大 量 的 神经 元 去 传输 信息 。 基 于 神经 元 的 启发 ， 科 学 家 建立 了 一 种 新 的 运算 模型 ， 人 工 神经 网 络 。 神 经 网 络 是 由 大 量 的 节点 ， 或 称 为 神经 元 ， 
相互 连接 构成 。 信 息 经 过 输入 层 进 入 神经 网 络 ， 在 节点 中 不 断 进行 信息 传输 与 运算 ， 最 后 到 达 输 出 层 ， 得 到 最 终 处 理 后 的 信息 。 人 工 神 经 网 络 经 过 数据 训练 后 ， 它 就 具有 类 似 于 人 脑 的 能 力 ， 人 工 神经 网 络 
的 研究 使 得 “ 听 歌 识 曲 ”， “图 像 识别 ”等 应 用 得 到 高 速 帮 展 。 如 果 数 据 量 足 够 用 于 训练 和 机 器 运算 速度 足够 快 的 话 ， 制 造 一 个 有 人 类 智力 的 机 器 也 是 有 可 能 的 。 


BP (Back Propagation) 神经 网 络 是 一 种 处 理 分 类 和 回归 问题 很 有 效 的 神经 网 络 。 本 节 我 们 重点 介绍 BP 神 经 网 络 及 其 前 向 传播 和 反 向 传播 的 机 制 ， 相 信 通 过 本 节 的 学 习 ， 读 者 能 够 对 人 工 神经 网 络 有 
一 个 快速 的 入 门 。 


1. 神 经 网 络 模型 


图 7-7 展 现 了 一 个 3 层 的 神经 网 络 。 我 们 使 用 圆圈 来 表示 神经 网 络 的 节点 ， 标 上 “+1” 的 节点 被 称 为 偏 置 节 点 。 第 一 层 是 网 络 的 输入 层 ， 最 后 一 层 是 输出 层 ， 其 余 的 都 称 为 隐藏 层 ， 图 7-7 只 有 一 个 隐藏 
层 。 我 们 可 以 看 到 输入 层 有 3 个 输入 单元 (不 包括 偏 置 单元 ) ，3 个 隐藏 单元 和 一 个 输出 单元 。 


Layer 1 上， Layer |， 
图 7-7 “神经 网 络 模型 
我 们 用 n 来 表示 网 络 的 层 数 ， 本 例 中 ni=3。 我 们 将 第 | 层 记 为 LI， 于 是 输入 层 记 为 L1， 输 出 层 记 为 Ll， 我 们 用 sl 表 示 第 | 层 的 节点 数 ， 在 本 例 中 神经 网 络 参数 有 
(W, b) = (W 0 ，b (1) ，W @) ，b QQ ) ，W 家 示 第 | 层 第 ;单元 与 第 |+1 层 第 单元 之 间 的 连接 系数 (注意 标号 顺序 ) ，?" 是 第 1+1 层 第 单元 的 偏 置 项 。 在 本 例 中 , W (1) E90” W (2) eq 
2. 前 向 传播 


我 们 用 ”表示 第 | 层 第 单元 的 激活 值 。 当 |=1 时 ，o”=*%。 继 续 以 图 7-7 的 网 络 为 例 ， 给 定 参 数 集合 (W，b) 和 激活 函数 {后 ， 我 们 可 以 按照 下 面 的 公式 计算 第 二 层 的 激活 信 a 《) : 


(2) 一 W (1), W bes WW (1)、 
a =fW x +t x + x +h ) 
ay = (Wy x + x + Ws xs 十 D 


(2) 和 Ty (1) (1) (1) 
as =Jf(W x tH x + Ws Xs +b ) 


n 
2 1 
Dmx 


我 们 用 :表示 第 | 层 第 单元 的 加 权 和 ， 如 ” “全 ”， 则 4 = /2)。 我 们 可 以 使 用 矩阵 乘法 对 上 面 的 过 程 进行 简化 : 


2 Wa pe 


a )_ fz ) 


3 


往 输 出 层 传 播 ， 因 此 称 为 前 向 传播 。 常 用 的 激活 函数 有 下 面 几 
种 ， 如 表 7-4 所 示 。 


表 7-4 常用 激活 函数 


函数 名 称 冰 数 公式 函数 作用 


sigmoid S 型 曲线 ， 将 〈-oo，+oo) 映射 到 (0，1 ) 
tanh 双 正 切 曲 线 ， 将 〈-o，+oo) 映射 到 (一 
ee 在 多 分 类 中 党 用， 能 够 将 任 童 实数 值 映 喘 为 (0，1 ) 的 概率 值 ， 并 且 Z 的 所 有 分 


量 困 数值 和 为 1 


我 们 一 般 以 随机 值 初始 化 参数 和 矩阵， 后面 我 们 将 用 数据 训练 网 络 。 这 是 一 个 不 断 优 化 参数 集合 (W，b) ， 使 得 在 训练 集 处 理 的 结果 更 优 的 过 程 。 而 BP 神 经 网 络 训练 参数 的 方法 是 反 向 传播 。 
3. 反 向 传播 


假设 我 们 现 有 一 个 数据 集 { (x (0) ，y () ) ，...， (x Im ，y (m) ) }， 它 包含 了 m 个 样本 。 我 们 首先 设 定 代价 函数 ， 对 于 一 个 样 例 (x DO ，y () ) : 


] 辣 
JTW,b;x",y" )= 7 hy , (x )-—y™ 


而 对 于 整体 代价 函数 我 们 定义 为 : 


Wel Be 


J(W,b)=[— 一 》 JUO1- bp DNA 让 


1=] =] 1i1=] J=] 


第 一 项 表示 残 差 平 方 和 ， 第 二 项 是 正则 化 项 ， 目 的 是 为 了 防止 权重 过 大 以 致 过 度 拟 合 。 这 个 代价 函数 经 常用 于 分 类 和 回归 问题 。 在 二 分 类 问题 中 ， 我 们 用 y=0 和 y=1 代 表 两 种 类 型 的 标签 。 我 们 可 以 在 输 
出 层 使 用 sigmoid 激 活 函 数 使 得 最 终 的 输出 结果 在 (0，1) 之 间 ， 通 过 代价 函数 计算 模型 预测 的 误差 。 而 对 于 回归 问题 ， 我 们 可 以 对 真实 的 y 值 做 一 个 变换 ， 如 使 用 sigmoid 函 数 ， 使 得 样 例 y 值 的 范围 在 
(0，1) 之 间 。 接 着 输出 层 同 样 使 用 sigmoid 激 活 函 数 ， 预 测 的 y 值 也 在 0，1) 之 间 ， 最 后 使 用 代价 函数 计算 误差 。 


有 了 代价 函数 ， 神 经 网 络 的 任务 就 是 使 得 “代价 ”尽量 低 。 我 们 将 使 用 梯度 下 降 法 对 参数 (W，b) 进行 优化 ， 每 一 步 迭 代 更 新 (W，b) 使 得 代价 函数 的 值 不 断 减少 (如 图 7-8 所 示 ) 。 我 们 将 使 用 W 
和 b 的 偏 导数 对 它们 进行 更 新 : 


(/) 
1] | 


] 
-1]0 -8 -6 -4 -2 0 2 二 6 8 10 
u 


图 7-8 梯度 下 降 法 示意 图 


其 中 o 是 学 习 效率 ， 其 中 关键 在 于 计算 偏 导数 。 而 反 向 传播 算法 是 计算 偏 导 数 的 一 种 有 效 方法 。 由 于 篇 幅 限制 ， 我 们 不 讲解 公式 的 具体 推导 ， 直 接 讲 述 反 向 传播 算法 的 计算 步骤 和 推导 得 到 的 计算 公 


。 给 定 一 个 样本 (x 外 ，y @ ) ， 反 向 传播 算法 可 以 分 为 下 面 几 个 步骤 : 


1) 利用 前 向 传播 算法 ， 得 到 Lz，L3，.… 直 到 输出 层 沁 的 激活 值 。 


2) 计算 输出 层 (第 nt 层 ) 的 残 差 : 


P= — (y— UA 


3) 计算 |=nt-1，nt-2，.…，2 的 各 层 的 残 差 : 


50 = ((W)” SD 


4) 计算 最 终 需要 的 偏 导 数值 : 


[i) 


| RD (ND)\T 
X,y) = oO; Q ) 


WW 


(I+1) 


bp (Wb; 


当 样 本 数量 为 mn 时 ， 我 们 批量 梯度 下 降 法 的 迭代 如 下 : 


1) 初始 化 ， 对 于 所 有 1， 令 AW () =0，Ab 山 =0。 
2) 对 i=1 到 m : 

a) 使 用 反 向 传播 算法 计算 ww.bxW 和 WAV.bsxy) 
b) AWH=AWO+Y yo TW, Db;x,y) 

c) AbV=Ap ?+Y, IW,b:x,y) 


3) 更 新 权重 参数 : 


WO =W™-— alCLAW®) + AW] 
a) m 


b) Bb -atCAD] 
反复 进行 上 述 迭 代 ， 减 少 代价 函数 (W，b) 的 值 ， 进 而 求解 我 们 的 神经 网 络 。 
4 进行 实验 


我 们 尝试 使 用 BP 神 经 网 络 进行 实验 。 数 据 集 采 用 scikit-learn 提 供 的 make_moons 数 据 集 。 产 生 的 数据 如 图 7-9 所 示 ，“+” 表 示 女 性 病人 ，“x” 表示 男性 病人 ，x 和 y 轴 表示 两 个 指标 。 将 数据 分 为 训练 
集 和 测试 集 后 ， 使 用 训练 集训 练 神经 网 络 ， 将 训练 好 的 神经 网 络 作用 于 测试 集 ， 得 到 预测 的 错误 率 。BP 神 经 网 络 的 代码 见 代 码 清单 7-4， 我 们 需要 设置 网 络 层 数 和 每 层 的 节点 数 ， 学 习 速 率 a， 正 则 化 系数 
入 ， 迭 代 次 数 。 对 于 此 数据 集 我 们 采用 [2，3，1] 的 网 络 ， 输 入 的 节点 数 是 2 个 ， 设 置 一 个 有 3 个 节点 的 隐藏 层 。a 设 为 0.2， 入 设 为 0.005， 和 迭代 次 数 设 为 10000。 程 序 得 到 的 结果 为 : 训练 集 的 错误 率 为 
0.159375， 测 试 集 的 错误 率 为 0.15。BP 神 经 网 络 的 分 类 效果 很 不 错 ， 如 果 提高 迭代 次 数 ， 分 类 的 效果 还 可 以 进一步 提高 。 


代码 清单 7-4 ”BP 神经 网 络 


# BP 神经 网 络 Python 实 现 
import numpy as np 
from numpy import random 
import math 
import copy 
import sklearn.datasets 
import matplotlib.p 


# 获取 数据 并 分 为 训练 集 与 测试 集 


trainingSet, 


plt.scatter (trainingSet [trainingLabel 
Blts 


Show () 


yplot as plt 


testSet = trainingSet{[320:] 
testLabels = trainingLabels{[320:] 
trainingSet = trainingSet [:320] 
trainingLabels = trainingLabels|[:320] 


# 设置 网 络 参 数 
Jayer =[2,3,1] 


Lambda = 0.005 
alpha = 0.2 

num passes = 20000 
m = len (trainingSet) # 样本 数量 
# 建立 网 络 


# 
b 
Ww 
for 


def 


def 


def 


# 设置 层 数 和 节点 数 
# 正则 化 系数 
# 学 习 速 率 


ls==1] [:,0], trainingSet [trainingLabels==1] [: 


图 7-9 ”make_moons 数 据 集 


trainingLabels = sklearn.datasets.make moons (400, noise=0.20) 
plt.scatter (trainingSet [trainingLabel 


1], s=40, c='r', marker='x',cmap=plt.cm.Spectral 


ls==0] [:,0], trainingSet [trainingLabels==0] [:,1], s=40, c='y', marker='+',cmap=plt.cm.Spectral 


网 络 采用 列表 存储 每 层 的 网 络 结构 ,网 络 的 层 数 和 各 层 节点 数 都 可 以 自由 设 定 


[] # 偏 置 元 , 共 layer-1 个 元 素 ,b[0] 代 表 第 一 个 隐藏 层 的 偏 置 元 (向 量 形式 ) 


[] 


i in range (Len ( 


W.append (random. 


layer) -1): 
random(size = (layer[i+1],1layer 


b.append (np.array([0.1]*layer[i+1])) # 偏 置 元 D [i 


[np.array (0) ]*( 


np.array (W) 


costfunction (predict, labels): 
# 不 加 入 正则 化 项 的 代价 函数 
# 输入 参数 格式 为 numpy 的 向 量 


return suml( (predict - labels)**2) 


error rate (pred 


ict,labels): 


# 计算 错误 率 , 针对 二 分 类 问题 ,分 类 标签 为 0 或 1 
# 输入 参数 格式 为 numpy 的 向 量 


error =0.0 
for i in rangel( 


Len (predict)): 


predict[i] = round (predict[i]) 


Et 


f predictl[ 


i] !=labels[i]: 


errort+=1 


return error/len (predict) 
sigmoid(z): # 激活 函数 sigmoid 
return 1/(l+np.exp (-z)) 


diff sigmoid(z) 
return sigmoid!( 


: # 激活 函数 sigmoid 的 导数 
Zz)* (1-sigmoid(z)) 


activation function = sigmoid # 设置 激活 函数 


len (W)+1) 起 af[0] = x, 即 输入 ,a[1]=f£f(z[ 
[Inp.array (0) ]*len (W) # 注意 z[0] 表 示 网 络 输入 层 的 输出 ， 即 


[i 
J 


] 
(Zz 


) ) ) 


0] 
未 


的 规模 


), 
放 


diff activation function = diff sigmoid # 设置 激活 函数 的 导数 
# 开始 训练 BP 神经 网 络 加 
a[0] = np.array (trainingSet) .了 # 这 里 一 列 为 一 个 样本 ， 一 行 代 表 一 个 特征 
y = np.array (trainingLabels) 
for v in range (num Passes) : 


# 前 向 传播 


for i in range (Len(W) ) : 
z[i] = np.dot (W[i],al[lil]) 
for Jj in range (m) : 


WI[i] 表示 网 络 第 半 层 到 第 1i+1 层 的 转移 纸 阵 (NumPy 数 组 ) ; 输入 层 是 第 0 层 


# 
是 1* 第 i+1 个 隐藏 层 节点 数 


a[len(W)+1] = 最 终 输 出 
激活 的 第 一 个 隐藏 层 


id eat 


Z[i] [:,j]+=b[i] # 加 上 偏 置 元 


a[i+1] = activation function (z[i )) # 激活 节点 
predict = a[-1] [0] # a[-1] 是 输出 层 的 结果 , 即 为 预测 值 
# 反 向 传播 


delta = [np.array(0)]*len(W) # qelta[0] 是 第 一 个 隐藏 层 的 残 差 ，qelta[-1] 是 输出 层 的 残 差 
# 计算 输出 层 的 残 差 
0 ta[-1] = -(y-al[l-1])*diff activation function(z[-1]) 
# 计算 第 二 层 起 除 输 出 层 外 的 残 差 
for i in range(len(delta)-1): 
delta[-i-2] = np.dot (W[-i-— Ms T,delta[-i-1])*diff activation function(z [-i-2]) # 这 里 是 倒 # 序 遍 历 
# 设 下 标 -i-2 代 表 第 工 层 ， 则 W[ 一 i en delta[-i-1] 是 # 第 L+1 层 的 残 差 ， 而 Z[- -2] 是 未 激活 的 第 工 层 
# 计算 最 终 需要 的 篇 导数 值 
delta w = [np.array (0) 1*len (W) 
delta pb = [np.array (0)]*len (W) 
for i in range (len (W)): 
# 使 用 算 阵 运算 简化 公式 , 下面 两 行 代 码 已 将 全 部 样本 反 向 传播 得 到 的 偏 导 数值 求 # 和 
delta _w[i] np.dot (deltal[lil],a[lil].T) 
delta pb[i np.sum(delta[il],axis=1) 
# 更 新 权重 参数 
for i in range (len (W) ) : 
W[i] -= alpha* (Lambda*W[i]+delta wl[i]/m) 
b[i] -= alpha/m*delta bl[i] 
print ' 训 练 样本 的 未 正则 化 代 从 介 函 数值 :ycostfunction (predict,np.array (trainingLabels)) 
print 训练 样本 错误 率 : ea (predict,np.array (trainingLabels)) 
# 使 用 测试 集 测试 网 络 
a[0] = np.array (testSet) .了 # 一 列 为 一 个 样本 ， 一 行 代 表 一 个 特征 
# 前 向 传播 
m= lenl(testSet) 
for i in range (Len(W) ) : 
z[i] = np.dot (W[i],al[lil]) 
for ] in range (m) : 
z[i][:,j]+=b[i].T[0] 
a[i+l] = activation function(z[i]) 
predict = a[-1] [0] 
print ' 测 试 样 本 的 未 正则 化 代价 函数 值 : ', costfunction (predict,np.array (testLabels)) 
print ' 测 试 样本 错误 率 :',error rate (predict,np.array (testLabels)) 


~ 一 


* 代 码 详 见 : 示例 程序 /code/7-3.py 
5. 其 他 神经 网 络 


卷 积 神经 网 络 (Convolutional Neual Network，CNN) 是 一 种 前 馈 神 经 网 络 ， 与 BP 神经 网 络 不 同 的 是 ， 它 包括 卷 积 层 (Alternating Convolutional Layer) 和 池 层 (Pooling Layer) ， 在 图 像 处 理 
方面 有 很 好 的 效果 ， 经 常用 作 和 解决 计算 机 视觉 问题 。 弟 归 神 经 网 络 (RNN) 分 为 时 间 弟 归 神 经 网 络 (Recurrent Neural Network) 和 结构 递归 神经 网 络 (Recursive Neural Network) 。RNN 主 要 用 于 处 
理 序列 数据 。 在 BP 神经 网 络 中 ， 输 入 层 到 输出 层 各 层 间 是 全 连接 的 ， 但 同 层 之 间 的 节点 却 是 无 连接 的 。 这 种 网 络 对 于 处 理 序列 数据 效果 很 差 ， 忽略 了 同 层 间 节点 的 联系 ， 而 在 序列 中 同 层 间 节点 的 关系 是 很 
密切 的 。CNN 和 RNN 是 深度 学 习 中 著名 的 两 种 结构 ， 建 议 读者 借助 其 他 书籍 熟悉 它们 。 


7.4 KkNN 算 法 
kNN 算 法 是 k-Nearest Neighbor Classification 的 简称 ， 即 k- 近 邻 分 类 算法 。 它 的 思想 很 简单 : 一 个 样本 在 特征 空间 中 ， 总 会 有 k 个 最 相似 ( 即 特征 空间 中 最 邻近 ) 的 样本 。 其 中 ， 大 多 数 样本 属于 某 
一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。 用 一 句 不 准确 的 俗语 来 描述 会 更 直 白 : “ 近 朱 者 赤 ， 近 墨 者 黑 ”。 


如 图 7-10 所 示 ， 我 们 有 两 类 数据 : 方块 和 三 角形 。 它 们 分 布 在 二 维特 征 空间 中 。 假 设 有 一 个 新 数据 (用 圆 表示 ) 需要 预测 其 所 属 的 类 别 ， 根 据 “ 物 以 类 聚 ” 的 直觉 ， 我 们 找到 离 圆 图 最 近 的 几 个 数据 
点 ， 以 它们 中 的 大 多 数 的 特点 (所 属 类 别 ) 来 决定 新 数据 所 属 的 类 别 ， 这 便 是 一 次 预测 。 


图 7-10 下 -近邻 算法 例子 


如 果 k=3， 由 于 三 角形 所 占 比 例 为 2/3，k- 近 邻 算法 更 倾向 于 认为 : 圆 属于 三 角形 对 应 的 类 别 。 如 果 k=5， 由 于 方块 所 占 比 例 为 3/5，k- 近 邻 算 法 更 倾向 于 认为 : 圆 属于 方块 对 应 的 类 别 。 


读者 需 注 意 区 分 “分 类 ”与 “ 聚 类 ”的 区 别 。 分 类 属于 有 监督 学 习 问题 的 学 畴 ， 而 聚 类 属于 无 监督 学 习 。 举 例 前 释 : 原始 人 尚未 发 明文 字 ， 用 符号 来 表示 事物 。 他 们 能 够 通过 观察 到 的 大 量 事 实 (相当 
于 收集 数据 集 ) ， 发 现 人 与 人 之 间 有 天 然 的 生理 差别 。 原 始 人 能 将 族人 聚 成 两 个 大 类 ， 用 无 意义 的 符号 “4g” 和 “有 ”表示 ， 这 个 例子 能 说 明 “ 无 监督 ”的 内 涵 ， 也 暗示 这 被 看 作 是 一 个 聚 类 问题 。 


在 现代 ， 我 们 会 把 “性 别 ” 这 一 概念 牢 牢 地 灌输 给 每 一 个 儿童 。 我 们 不 断 地 训练 他 们 ， 并 及 时 纠正 错误 ， 以 逐渐 形成 准确 的 判断 。 这 个 “教育 ”的 过 程 ， 便 是 “有 监督 ”的 含义 。 但 即使 是 成 人 ， 我 们 
也 可 能 会 在 “ 男 扮 女装 ”或 “ 女 扮 男 装 ” 的 场景 中 被 欺骗 。 这 个 过 程 与 我 们 训练 某 一 种 算法 的 流程 极为 相似 。 或 者 说 ， 机 器 学 习 算法 的 灵感 正 是 源 于 生活 中 的 点 滴 。 


另外 ，k= 近 邻 算法 是 一 种 非 参数 模型 。 简 单 来 说 ， 参 数 模型 (如 线性 回归 、 逻 辑 回 归 等 ) 都 包含 待 确定 的 参数 。 训 练 过 程 的 主要 目的 是 寻找 代价 最 小 的 最 优 参数 。 参 数 一 旦 确定 ， 模 型 就 完全 固定 了 ， 
进行 预测 时 完全 不 依赖 于 训练 数据 。 非 参数 模型 则 相反 ， 在 每 次 预测 中 都 需要 重新 考虑 部 分 或 全 部 训练 (已 知 的) 数据 。 在 下 面 的 算法 流程 中 ， 请 读者 仔细 体会 二 者 的 区 别 。 


1. 算 法 流程 

1) 计算 已 知 类 别 数 据 集中 的 点 与 当前 点 之 间 的 距离 。 

2) 按照 距离 递增 次 序 排序 。 

3) 选取 与 当前 点 距离 最 小 的 k 个 点 。 

4) 确定 前 k 个 点 所 在 类 别 对 应 的 出 现 频率 。 

5) 返回 前 k 个 点 出 现 频率 最 高 的 类 别 作为 当前 点 的 预测 分 类 .。 

2. 算 法 实现 

代码 清单 7-5 是 KNN 算 法 的 一 个 具体 实例 ， 其 输出 效果 图 如 图 7-11 所 示 。 


代码 清单 7-5 ”kNN 算 法 示例 


# =-*=- coding:utf-8 -=—*-— 


import numpy as np 

import matplotlib.pyplot as pilt 

from matplotlib.colors import ListedColormap 

from sklearn.neighbors import KNeighborsClassifier 

from sklearn.datasets import load iris 

iris = load iris() # 加 载 数 据 

X = iris.data[:, :2] # 为 方便 通 图 ， 仅 采用 数据 的 其 中 两 个 特征 

y = iris.target 

print iris,.DESCR 

print iris.feature names 

cmap light = ListedColormap (['#FFAAAA', '#AAFFAA', '#AAAAFF']) 

cmap bold = ListedColormap (['#FFO0000', '#00FFOO0', "#0000FF"]) 

clf = KNeighborsClassifier (n neighbors=15, weights="'uniform') # 初始 化 分 类 器 对 象 

C1f .fit(Xy yy) 

# 画 出 决策 边界 ， 用 不 同 颜色 表示 

x min, x max = X[:, 0] .min() - 1，X[:，0].max() + 1 

y min, y max = X[:, 1] .min() - 1, XxX[:, 1] .max() + 1 

xx, yy = np.meshgrid(np.arange (x min, x max, 0.02), 
np.arange (y min, y max, 0.02)) 


2 = clf.predict (np.c [xx.ravel(), yy.ravel () ] ) .reshape (xx.shape) 
plt.figure() 

plt.pcolormesh (xx, yy, 2, cmap=cmap light) # 绘制 预测 结果 图 
plt.scatter (X[:, 0], X[:, 1], c=y, cmap=cmap bold) # 补充 训练 数据 点 
plt.xlim(xx.min(), xx.max()) 加 

plt.ylim(yy.min(), yy.max()) 

plt.title("3-Class classification (k = 15, weights = 'uniform')") 
plt.show () 


* 代 码 详 见 : 示例 程序 /code/7-4.py 


3-Class classification (k=15,weights = "uniform') 


4 村 6 7 8 


图 7-11 代码 输出 结果 图 


7.5 “朴素 贝 叶 斯 分 类 算法 


朴素 贝 叶 斯 算法 是 一 种 应 用 贝 叶 斯 理论 的 学 习 算 法 。 它 基于 这 样 一 个 假设 : 特征 之 间 是 相互 独立 的 。 举 一 个 例子 ， 我 们 希望 知道 一 封 邮件 是 否 为 垃圾 邮件 ， 该 邮件 包含 词汇 “ 售 价 ” “电话 ”“ 促 
销 ”， 那 么 现在 的 问题 就 是 当 邮 件 包 含 词汇 “ 售 价 ”“ 电 话 ” “促销 ” 时 ， 该 邮件 是 垃圾 邮件 的 概率 为 多 少 。 用 数学 公式 表达 ，y= 0 表示 邮件 为 垃圾 邮件 ，y=1 表 示 邮 件 为 普通 邮件 ，x1 表 示 邮 件 包含 “ 售 
价 ” 的 事件 ，x2 表 示 邮 件 包含 “电话 ”的 事件 ，x3 表 示 邮 件 包含 “促销 ”的 事件 ，pP (xi) 表示 事件 xi 发 生 的 概率 ， 我 们 求 的 就 是 条 件 概率 P (y=0|x1，x2，.…Xn) 。 这 个 任务 实际 上 是 求 最 大 后 验 概 
率 (MAP) ， 由 我 们 生活 的 经 验 可 知 该 邮件 很 有 可 能 属于 垃圾 邮件 ， 因 为 垃圾 邮件 一 般 包 含 这 三 个 词汇 ， 贝 叶 斯 公式 推导 出 的 结果 正 符 合 这 个 规律 。 


给 定 一 个 分 类 标签 y 和 自由 特征 变量 x1，…，xn，xi=1 表 示 样 本 具有 特征 ij， 而 xi=0 表 示 样 本 不 具有 特征 ij。 如 果 我 们 想 知 道具 有 特征 1 到 n 的 向 量 是 否 属于 分 类 标签 yXk， 贝 叶 斯 公式 如 下 : 


POy)P(X | 其 ) 


已 (| 和 
OU | ] ) P(x, X, 


Hi 


再 由 特征 相互 独立 的 假设 


a 6 yr = | | PC J 
1=] 


且 由 于 P (x1，.…，Xn) 已 经 给 定 ， 比 较 P (y1|X1，.…，Xn) 和 P (yz|x1，…，xn) ， 这 与 比较 P (y1) P(Xx1，.…，Xnly1) 和 P (y2) P (x1，.…，Xnly2) 等 价 。 假 设 总 共有 m 种 标签 ， 我 们 只 需 计算 
P (yo P (Xx1，.…，Xnlyk) ，k=1，2，.…，m， 取 最 大 值 作 为 预测 的 分 类 标签 ， 即 : 


= he max P( oll P(X, 


贝 叶 斯 分 类 在 处 理 文档 分 类 和 垃圾 邮件 过 滤 有 较 好 的 分 类 效果 。 训 练 模型 后 参数 P(xilyk) ，i=1，2，…，n，k=1，2，…，m 已 知 ， 进 行 预测 只 需要 先 统计 测试 样 例 是 否 具 有 特征 x1 到 xn， 再 计算 上 面 


的 最 大 似 然 函 数 即 可 。 不 同 的 贝 叶 斯 分 类 器 主要 取决 于 条 件 概率 P_ (xilyk) 的 定义 ， 如 果 仅 采 用 数学 上 的 原始 定义 ， 由 于 模型 过 于 简单 ， 在 处 理 较 复杂 的 分 类 问题 时 效果 一 般 ， 所 以 在 朴素 贝 叶 斯 的 基础 上 有 
多 种 改进 模型 ， 下 面 介绍 改进 模型 中 常用 的 高 斯 模型 和 多 项 式 模 型 。 


A 


Kk 


1. 高 斯 朴素 贝 叶 斯 


原始 的 朴素 贝 叶 斯 只 能 处 理 离散 数据 ， 当 x1，…，xn 是 连续 变量 时 ， 我 们 可 以 使 用 高 斯 裤 素 贝 叶 斯 (Gaussian Naive Bayes) 完成 分 类 任务 。 当 处 理 连续 数据 时 ， 一 种 经 典 的 假设 是 : 与 每 个 类 相关 的 
连续 变量 的 分 布 是 基于 高 斯 分 布 的 ， 故 高 斯 朴素 贝 叶 斯 的 公式 如 下 : 


P(x, =v|y, 


其 中 uy， 分 别 表示 全 部 属于 类 yk 的 样本 中 变量 x 的 均值 和 方差 。 
2. 多 项 式 朴素 贝 叶 斯 


多 项 式 朴素 贝 叶 斯 (Multinomial Naive Bayes) 经 常 被 用 于 处 理 多 分 类 问题 ， 比 起 原始 的 朴素 贝 叶 斯 分 类 效果 有 较 大 的 提升 。 其 公式 如 下 : 


其 中 "和 表示 在 训练 集 T 中 类 yk 具 有 特征 i 的 样本 的 数量 ， ”到 ,表示 训练 集 T 中 类 类 yl 的 特征 总 数 。 平 滑 系 数 a > 0 防止 零 概 率 的 出 现 ， 当 aQ=1 称 为 拉 普 拉 斯 平滑 ， 而 a < 1 称 为 Lidstone 平 滑 。 


3.Python 实 现 


Scikit-learn 模 块 中 有 Naive Bayes 子 模块 ， 包 含 了 本 节 涉 及 的 所 有 贝 叶 斯 算法 。 关 键 在 于 将 分 类 器 设置 为 朴素 贝 叶 斯 分 类 器 ， 接 着 调用 分 类 器 训练 和 进行 分 类 。 其 具体 实现 如 代码 清单 7-6 所 示 。 


代码 清单 7-6 ”朴素 贝 叶 斯 实现 


from sklearn import datasets 

iris = datasets.1load iris() # 读 取 iris 数 据 集 

from sklearn.naive bayes import GaussianNB # 使 用 高 斯 贝 叶 斯 模型 

clf = GaussianNB () # 设置 分 类 器 

clf.fit (iris.data,iris.target) # 训练 分 类 器 

y pred = clf.predict (iris.data) # 预测 

print ("Number of mislabeled points out of a total %d points : %d" % (iris.data.shape[0], (iris.target != y pred) .sum())) 


* 代 码 详 见 : 示例 程序 /code/7-5.py 


76 省 二 


本 章 专注 于 数据 挖掘 中 分 类 与 回归 预测 问题 的 相关 基础 算法 ， 重 点 介绍 对 应 的 算法 原理 及 Python 实现 。 通 过 本 章 的 学 习 ， 可 在 以 后 的 数据 挖掘 过 程 中 采用 适当 的 算法 ， 并 按 所 陈述 的 步骤 实现 综合 应 
用 ， 希 望 本 章 能 给 读者 一 些 启发 ， 思 考 如 何 改进 或 创造 更 好 的 挖掘 算法 。 


7.1 节 主要 介绍 了 线性 回归 和 逻辑 回归 两 个 模型 。 前 者 是 最 基础 的 ， 而 后 者 是 工业 界 最 常用 的 。 读 者 应 能 通过 阅读 正文 ， 归 纳 它 们 的 异同 ; 7.2 节 从 1D3 算 法 开始 介绍 决策 树 ， 提 及 C4.5 算 法 、C5.0 算 法 和 
CART 算 法 等 改进 模型 ;7.3 节 则 是 人 工 神经 网 络 ， 考 虑 到 当前 深度 学 习 的 火热 ， 读 者 有 必要 详细 了 解 其 基本 推导 和 实现 ; 7.4 节 主要 介绍 KNN 算 法 ， 它 是 一 种 非 参数 模型 ， 也 是 最 简单 直观 的 机 器 学 习 算法 ; 
7.5 节 主要 介绍 朴素 贝 叶 斯 分 类 算法 ， 从 严格 的 描述 中 ， 读 者 可 以 看 到 它 与 高 斯 朴素 贝 叶 斯 、 多 项 式 朴素 贝 叶 斯 算法 的 联系 与 区 别 。 


学 到 这 里 ， 相 信 读 者 会 对 数据 挖掘 中 两 大 预测 任务 (分 类 与 回归 ) 有 较为 清晰 的 认识 。 


7.7 上 机 实验 


1. 实 验 目的 


. 掌握 BP 神经 网 络 
2. 实 验 内 容 


使 用 BP 神经 网 络 预 测 马 是 否 患 有 疝气 病 。 数 据 采用 UCI 数 据 库 的 疝气 病症 预测 病 马 数据 ， 该 数据 在 第 3 章 的 上 机 实验 已 经 使 用 过 了 。 数 据 有 多 行 ， 每 行 都 有 22 个 数据 ， 前 21 个 为 马 的 病症 数据 ， 最 后 一 
个 为 该 马 的 标签 。 数 据 已 被 分 为 训练 集 和 测试 集 ，data/horseColicTraining.txt 和 data/horseColicTest.txt。 本 实验 的 任务 使 用 训练 集训 练 BP 神 经 网 络 并 预测 测试 集 的 标签 ， 并 尝试 将 预测 的 测试 集 的 标签 


错误 率 控制 在 30% 以 下 。 读 者 可 以 使 用 代码 清单 7-4 的 BP 神经 网 络 ， 也 可 以 自行 实现 。 
3. 实 验 步 又 提示 
1) 导入 训练 集 和 测试 集 


2) 数据 正则 化 ， 可 以 借助 scale 函 数 : 


from sklearn.preprocessing import Scale 


3) 设置 BP 神 经 网 络 参数 : 网 络 层 数 和 节点 数 ， 以 及 学 习 速 率 、 正 则 化 系数 和 迭代 次 数 。 
4) 使 用 训练 集训 练 BP 神 经 网 络 。 


5) 使 用 训练 好 的 BP 神 经 网 络 预测 测试 集 的 标签 ， 计 算 错误 率 


第 8 章 ” 聚 类 分 析 建 模 


聚 类 分 析 是 研究 对 事物 进行 分 类 的 一 种 多 元 统计 方法 。 分 类 问题 在 科学 研究 、 生 产 实践 和 社会 生活 中 到 处 存在 ， 例 如 地 质 勘 探 中 根据 物探 、 化 探 的 指标 将 样本 进行 分 类 ; 古生物 研究 中 根据 挖掘 出 的 骨 
骼 形状 和 尺寸 将 它们 分 类 ; 大 坝 监控 中 由 于 所 得 的 观测 数据 量 十 分 庞大 ， 有 时 亦 须 将 它们 分 类 归并 ， 获 得 其 典型 代表 再 进行 深入 分 析 等 。 对 事物 进行 分 类 ， 进 而 归纳 并 发 现 其 规律 已 成 为 人 们 认识 世界 、 改 
造 世界 的 一 种 重要 方法 。 

由 于 对 象 的 复杂 性 ， 仅 赁 经 验 和 专业 知识 有 时 不 能 达到 确切 分 类 的 目的 ， 于 是 数学 方法 就 被 引进 到 分 类 问题 中 来 。 聚 类 分 析 方 法 应 用 相当 广泛 ， 已 经 被 广泛 用 于 考古 学 、 地 质 勘探 调查 、 天 和 气 预报 、 作 
物品 种 分 类 、 土 壤 分 类 、 微 生物 分 类 ， 在 经 济 管理 、 社 会 经 济 统计 部 门 ， 也 用 聚 类 分 析 法 进行 定量 分 类 。 


聚 类 分 析 根 据 事 物 彼此 不 同 的 属性 进行 辨认 ， 将 具有 相似 属性 的 事物 聚 为 一 类 ， 使 得 同一 类 的 事物 具有 高 度 的 相似 性 。 这 使 得 聚 类 分 析 可 以 很 好 地 解决 无 法 确定 事物 属性 的 分 类 问题 。 


N 


8.1 K-Means 聚 类 分 析 国 数 


N 


聚 类 分 析 中 最 广泛 使 用 的 算法 为 K-Means 聚 类 分 析 算 法 。K-Means 算 法 属于 聚 类 分 析 中 分 类 方法 里 较为 经 典 的 一 种 ， 由 于 该 算法 的 效率 高 ， 所 以 在 对 大 规模 数据 进行 聚 类 时 被 广泛 应 用 。 目 前 ， 许 多 算 
法 均 围 绕 着 该 算法 进行 扩展 和 改进 。 在 实际 应 用 中 ，K-Means 算 法 在 商业 上 常用 于 客户 价值 分 析 。 如 识别 客户 价值 应 用 的 最 广泛 的 RFM 模 型 便 是 通过 K-Means 算 法 进行 分 类 ， 最 终 得 到 不 同 特征 的 客户 
群 。 


1. 算 法 原理 


K-Means 算 法 通过 将 样本 划分 为 k 个 方差 齐 次 的 类 来 实现 数据 聚 类 。 该 算法 需要 指定 划分 的 类 的 个 数 。 它 处 理 大 数据 的 效果 比较 好 ， 已 经 被 广泛 用 于 实际 应 用 。 


K-Means 算 法 将 数据 集 N 中 的 n 个 样本 划分 成 k 个 不 相交 的 类 ， 将 这 k 个 母 C 表 示 ，n 个 样本 用 字母 X 表 示 ， 每 一 个 类 都 具有 相应 的 中 心 uj。K-Means 算 法 是 一 个 迭代 优化 算法 ， 最 终 使 得 下 面 的 均 
方 误 差 最 小 : 


| 


1 三 () X;EC 


迭代 算法 具体 描述 如 下 : 

1) 适当 选取 k 个 类 的 初始 中 心 。 

2) 在 第 k 次 的 迭代 中 ， 对 每 一 个 样本 x;， 求 其 到 每 个 中 心 ui 的 距离 ， 将 该 样本 归 到 距离 最 近 的 类 中 。 

3) 对 于 每 个 类 ci， 通 过 均值 计算 出 其 中 心 ui。 

4) 如 果 通 过 2) 3) 的 迭代 更 新 每 个 中 心 Wi 后 ， 与 更 新 前 的 值 相差 微小 ， 则 迭代 终止 ， 否 则 重复 2) 3) 继续 迭代 。 


K-Means 算 法 的 优点 是 简洁 和 快速 ， 设 t 步 算法 结束 ， 时 间 复 杂 度 为 O (nkt) ， 一 般 有 k<<n 和 t< <n， 适 合 大 规模 的 数据 挖掘 。 但 使 用 K-Means 算 法 需要 预先 设 定 聚 类 数量 K， 而 这 个 信息 一 般 我 们 难 
以 获取 。 
2.Python 实 现 


K-Means 的 算法 原理 很 简单 ， 我 建议 读者 自己 动手 实现 K-Means 算 法 ( 见 上 机 实验 1) 。 这 里 我 们 选择 scikit-learn 中 的 K-Means 算 法 进行 聚 类 实验 。 我 们 先 看 看 代码 清单 8-1 和 K-Means 算 法 的 效果 
( 见 图 8-1) : 


代码 清单 8-1 K-Means 实 验 


# -*- coding:utf-8 —*— 

# K-Means 实 验 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.cluster import KMeans 

from sklearn.datasets import make blobs 

plt.figure (figsize=(12, 12)) 加 

# 选取 样本 数量 

n samples = 1500 

# 选取 随机 因子 

random state = 170 

# 获取 数据 集 

X, y = make blobs (n_ samples=n samples, random state=random state) 

# 聚 类 数量 不 正确 时 的 效果 

Y_pPred = KMeans (n clusters=2, random state=random State) .fit predict (X) 
lt.subplot (221) 

It.scatter(X[y pred==0] [:, 0], X[y pred==0] [:, 1], marker='x',Ccolor="'b') 
lt.scatter (X[y pred==1] [:, 0], X[y pred==1][:, 1], marker="'+',Ccolor="'r') 
t.title("Incorrect Number of Blobs") 


聚 类 数量 正确 时 的 效果 
"Pred = KMeans (n clusters=3, random state=random state) .fit predict (Xx) 
lt.subplot (222) 


i 0 


It.scatter (X[Y pred== 
It.scatter (X[y pred== 
lt.scatter (X[y pred== 


he 
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.Subplot (223) 
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类 的 规模 差异 较 大 的 效果 


.Subplot (224 


.Scatter (X 


.Show () 
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t.title ("Correct Numb 
类 间 的 方差 存在 差异 的 效果 


varied, y varied = make b 
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.SCatter (X varied[y Pred==0] [:， 
.SCatter (X varied[y Pred==1][:，0]，X varied[y pred==1] 
.SCatter (X varied[y pregd==2][:, 

.title("Unedqual Variance") 


filtered = np.vstack((X[y == 
"Pred = KMeans (n clusters=3, random state=random state) .fit predict (Xx filtered) 


) 
.Scatter (X filtered[y pred== 
iltered 
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1], marker= '1',color="'m') 


][:100], Xx[y == 2]1[:10])) 


1], marker= 'x',Ccolor="'b'") 


ilteredl[ly pred==1] [:, 1], marker= '+"',Color="'r'") 
iltered[y pred==2][:, 


1], marker= '1',color="'m') 


* 代 码 详 见 : 示例 程序 /code/8-1.py 


Incorrect Number of Blobs 


“EP 


-9 
Unequal Variance 


0 


Correct Number of Blobs 


. I = I < 0 和 10 
Unevenly Sized Blobs 


10 


图 8-1 KK-Means 实 验 效 果 


我 们 实验 采取 的 数据 集 是 Scikit-learn 中 的 make_blodsl1]。 使 用 Scikit-learn 中 K-Means 算 法 的 程序 语句 很 简单 ， 主 要 语句 是 : 


Ea 


# 设置 分 类 器 
clf = sklearn.cluster.Kmeans(n cluster=8,random state=None,…) 
# random state 参 数 是 随机 因子 ， 使 得 初始 中 心 是 随机 选取 的 

训练 分 类 器 并 对 样本 的 标签 进行 预测 
y pred = clf.fit predict (xX) 


# 


函数 还 有 其 他 输入 参数 上 面 没 有 列 出 ， 读 者 可 参考 官方 的 函数 介绍 [<。 


样本 X 的 格式 可 以 是 二 维 列表 或 NumPy 数 组 ， 每 行 代表 一 个 样本 ， 每 列 代表 一 个 特征 ， 上 面 例子 的 样本 数据 是 二 维 的 ， 即 每 个 样本 都 有 两 个 特征 。 输 出 的 y_pred 是 每 个 样本 的 预测 分 类 。 分 析 图 8-1 的 
效果 ， 聚 类 数量 的 选取 尤为 重要 ， 选 取 错 误 的 聚 类 数量 时 将 使 得 


聚 类 


效果 不 理想 。K-Means 算 法 处 理 类 间 方 差 差 异 大 和 类 的 规模 差异 大 的 样本 时 ， 都 有 很 好 的 表现 ， 可 见 K-Means 算 法 具有 一 定 的 抗 干扰 能 


[1] http://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_blobs.html#sklearn.datasets.make_blobs 


[2] http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.K Means 


8.2 ”系统 聚 类 算 ; 

系统 聚 类 (又 称 为 层次 聚 类 ， 系 谱 聚 类 ) 是 一 个 一 般 的 聚 类 算法 ， 通 过 合并 或 分 割 类 ， 生 成 腐 套 的 集群 。 算 法 的 层次 结构 可 以 一 棵 树 表 示 。 树 的 根 是 一 个 唯一 的 类 ， 包 含 了 所 有 的 样本 ， 而 树 的 叶子 节 
点 是 单独 的 一 个 样本 。 通 过 树 的 叶子 节点 的 相互 合并 ， 最 终 合 并 成 为 树 的 根 节 点 。 

1. 算 法 原理 

系统 聚 类 的 基本 思想 是 先 将 样本 看 作 各 自 一 类 ， 定 义 类 间距 离 的 计算 方法 ， 选 择 距 离 最 小 的 一 对 类 合并 成 为 一 个 新 的 类 。 接 着 重新 计算 类 间 的 距离 ， 再 将 距离 最 近 的 两 类 合并 ， 如 此 最 终 便 合成 一 类 。 


图 8-2 和 图 8-3 给 出 了 一 个 系统 聚 类 的 例子 。 


图 8-2 ”系统 聚 类 示例 原始 样本 


abcdef 


图 8-3 系统 聚 类 示例 最 终 效果 


我 们 首先 定义 样本 间距 离 的 计算 方法 ， 计 算 各 个 样本 点 间 的 距离 。 先 将 距离 最 近 的 b 与 c 合 并 ， 此 时 我 们 都 5 个 类 : {aj， 也 ，9，{dj，{ej 和 作 。 我 们 希望 进一步 的 合并 ， 所 以 我 们 需要 计算 类 {a} 与 b，9} 
间 的 距离 。 因 此 我 们 还 需要 定义 类 间距 离 的 计算 方法 。 按 照 合 并 距离 最 小 的 两 个 类 的 规则 ， 我 们 按 顺 序 合 并 {d} 与 fe}，{d，e} 与 介 ，{b，Q 与 {d，e, 丹 ，{a} 与 人 ，b，c，d，e, 和。 最 终 我 们 通过 类 的 合并 得 
出 图 8-3 的 结果 。 整 个 过 程 如 同 生 成 树 的 过 程 ， 树 的 层次 结构 分 明 。 表 8-1 给 出 了 样本 间距 离 的 常用 定义 (a，b 表 示 某 个 样本 点 ) ， 表 8-2 给 出 了 类 间距 离 的 常用 定义 (A，B，C 代 表 某 个 类 ) 。 


表 8-1 距离 定义 1 


距离 名 称 公式 
欧 几 里 德 距离 (Euclidean distance ) d(a,b)=la—b 天 XC -b) 
均 方 距离 (Square Euclidean distance) d(a,b)= la -bl 本 (0 -by 
曼哈顿 距离 (Manhattan di stance ) d(a,b)= la -外 于 2 -Db 

ab, 

余弦 距离 (Cosine dist d(a,b)= cosO = 一 一 一 一 
余弦 距离 (Cosine distance ) [5 5 
最 大 距离 (Maximum distance ) d(a,b)= la -中 max|a, -已 | 


表 8-2 ”距离 定义 2 


连接 规则 名 称 Vg 
完全 连接 聚 类 (Complete-linkage clustering ) d(A,B)=max(dist(a,b)):a E A,b EB 
单一 连接 聚 类 (Single-linkage clustering ) d(4,B)=min(dist(a,b)):a €E A,b EB 


] 
平均 连接 聚 类 (Average linkage clustering ) d(A,B) -JA 
aeA beB 


连接 规则 名 称 公式 
递归 算法 : 
1 ) 初始 情形 ， 每 个 样本 点 单独 作为 一 个 类 : 


d, =d{{%),{x)}} =|x, x, 
2 ) 递归 合并 : 
离 差 平方 和 法 (Ward's criterion ) 
dAUBO=— -me dd4C+ 
nn he 
De Ed 
nn Th Pe 1T9 


我 们 考虑 使 用 系统 聚 类 算法 将 数据 集 N 中 的 n 个 样本 划分 成 k 个 不 相交 的 类 。 

系统 聚 类 算法 步骤 如 下 : 

1) 初始 化 ， 定 义 样本 间距 离 和 类 间距 离 的 计算 方法 ， 将 每 个 样本 点 各 自 设 为 一 类 ， 记 为 cl1，c2，.…，CcCn。 

2) 计算 任意 两 个 类 间 的 距离 d (ci，cj) ， 将 最 短 距 离 的 两 个 类 c 壮 cj 合并 成 {ci，cj， 并 将 类 重新 标记 为 cl1，c2，…， cn-1。 
3) 如 果 已 经 聚 为 k 类 则 算法 停止 ， 否 则 重复 步骤 2， 继 续 合 并 类 。 


系统 聚 类 算法 的 优点 在 于 灵活 的 距离 定义 使 得 它 有 很 广 的 适用 性 。 并 且 我 们 能 够 通过 建树 的 过 程 发 现 类 的 层次 关系 。 但 注意 系统 聚 类 算法 的 计算 复杂 度 很 高 ， 一 般 情 形 为 O (m3) ， 所 以 处 理 大 数据 聚 
类 问题 时 ， 我 们 不 能 选择 此 算法 。 
2.Python 实 现 


使 用 Scikit-learn 的 系统 聚 类 函数 能 够 轻松 实现 ， 与 K-Means 算 法 实现 比较 ， 只 需 更 改 一 行 代码 ， 修 改 分 类 器 。 


K-Means : 
y pred = sklearn.cluster. KMeans(n clusters=2, 
random state=random state) .fit predict (x) 


y pred= sklearn.cluster.AgglomerativeClustering ( 
affinity='euclidean',linkage='ward',n clusters=2) .fit predict (X) 


系统 聚 类 的 函数 是 AgglomerativeClustering () ， 最 重要 的 参数 是 这 3 个 : n_clusters 聚 类 数目 ，affinity 样 本 距离 的 定义 ，linkage 类 间距 离 的 定义 (连接 规则 ) 。 


通过 相同 的 数据 ， 我 们 使 用 系统 聚 类 与 K-Means 算 法 效果 作对 比 。 一 般 而 言 ， 系 统 聚 类 使 用 欧 几 里 德 距离 (affinity='euclidean ) 和 离 差 平方 和 法 (linkage='ward') 效果 最 好 。 代 码 见 代码 清单 8- 
2， 实 验 结果 见 图 8-4。 


代码 清单 8-2 系统 聚 类 实验 


# -*- coding:utf-8 一 * 一 

# 系统 聚 类 实验 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.cluster import AgglomerativeClustering 

from sklearn.datasets import make blobs 

plt.figure (figsize=(12, 12)) 

# 选取 样本 数量 

n samples = 1500 

# 选取 随机 因子 

random state = 170 

# 获取 数据 集 

X, y = make blobs(n samples=n samples, random state=random state) 
# 聚 类 数量 不 正确 时 的 效果 
y pred = AgglomerativeClustering (affinity='euclidean',linkage='ward',n clusters= 2) .fit predict (X) 
# 选取 欧 几 里 德 距离 和 离 差 平均 和 法 

lt.subplot (221) 
lt.scatter (X[y pred==0] [:, 0], X[ly pred==0]|[ 
It.scatter (X[y pred==1] [:, 0], X[y pregd==1][ 
t.title("Incorrect Number of Blobs") 

# 聚 类 数量 正确 时 的 效果 
y pred = AgglomerativeClustering\( 


1], marker="'x',Color="'b'") 
1], marker="'+', Color="'r'") 


“, 
“, 


EO OE 


affinity='euclidean',linkage='ward',n clusters=3) .fit predict (xX) 
plt.subplot (222) 

plt.scatter (X[y pred==0] [:, 0], Xl[ly pred==0] [:, 1], marker='x',color='b') 
plt.scatter (X[y pred==1] [:, 0], Xl[ly pred==1][:, 1], marker="'+',Ccolor="'r') 
plt.scatter (X[y pred==2] [:, 0], Xl[ly pred==2][:, 1], marker="'1',color="'m'") 
plt.title ("Correct Number of Blobs") 

# 类 间 的 方差 存在 差异 的 效果 

X varied, y varied = make blobs (n_ samples=n samples, 

cluster std=[1.0, 2.5, 0.5], 


random state=random state) 
pred= AgglomerativeClustering( 


kM 


ffinity='euclidean',linkage='ward',n clusters=3) .fit predict (X Varied) 
t.subplot (223) 


a 

1 

plt.scatter (X varied[y pred==0] [:, 0], X varied[y pred==0][:, 1], marker= 'x',Ccolor="'b') 
plt.scatter (X varied[y pred==1][:, 0], X varied[y pred==1][:, 1], marker= '+',Color="'r') 
plt.scatter (X varied[y pred==2] [:, 0], X varied[y pred==2][:, 1], marker= '1',color="'m') 
plt.title("Unequal Variance") 

# 类 的 规模 差异 较 大 的 效果 

xX filtered = np.vstack((X[y == 0][:500]，XLy == 1][:100], Xl[ly == 2][:10])) 

y pred= AgglomerativeClustering( 
affinity="'euclidean',linkage='ward',n clusters=3) .fit predict (X filtered) 

plt.subplot (224) 

plt.scatter (X_ filtered[y pred==0][:, 0], X filtered[y pred==0] [:, 1], marker='x',Ccolor="'b') 
plt.scatter(X filtered[y pred==1][:, 0], X filtered[y pred==1][:, 1], marker="'+',color="'r') 
plt.scatter (X filtered[y pred==2] [:, 0], X filtered[ly pred==2][:, 1], marker="'1',color="'m'") 
plt.title("Unevenly Sized Blobs") 

plt. show () 


* 代 码 详 见 : 示例 程序 /code/8-2.py 


Incorrect Number of Blobs Correct Number of Blobs 


4 


-19 = 一 0 9 I = = 三 $ 0 5 10 
Unequal Variance 4 Unevenly Silzed Blobs 


7 0 3 LU 一 0 > 10 


图 8-4 系统 聚 类 实验 结果 


从 实验 结果 分 析 ， 系 统 聚 类 的 结果 比 K-Means 的 聚 类 效果 要 好 ， 在 Incorrect Number of Blobs 和 Unequal Variance 这 两 个 实验 尤为 明显 。 从 算法 上 分 析 ，K-Means 需 要 随机 选择 类 的 初始 中 心 ， 给 算 
法 带 来 一 定 的 不 稳定 性 ， 比 起 K-Means 的 迭代 算法 ， 系 统 聚 类 算法 更 为 严谨 ， 每 一 步 合 并 都 是 贪心 的 。 算 法 都 是 时 间 、 空 间 和 效果 的 权衡 。 系 统 聚 类 算法 虽然 效果 很 好 ， 但 是 时 间 复 杂 度 很 高 ， 而 K-Means 
算法 的 时 间 复 杂 度 是 接近 线性 的 ， 换 言 之 ，K-Means 算 法 用 一 定 的 误差 换 来 了 大 量 的 时 间 。K-Means 算 法 的 误差 是 可 以 接受 的 ， 所 以 大 数据 上 我 们 大 多 选取 K-Means 算 法 。 


8.3 ”DBSCAN 聚 类 算法 

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是 一 个 有 代表 性 的 密度 聚 类 算法 。 它 将 类 定义 为 密度 相连 的 点 的 最 大 集合 ， 通 过 在 样本 空间 中 不 断 寻 找 最 大 集合 从 而 完成 
聚 类 。 该 算法 能 在 带 噪声 的 样本 空间 中 发 现任 意 形 状 的 聚 类 并 排除 噪声 。 

1. 算 法 原理 


首先 我 们 将 列 出 DBSCAN 算 法 涉及 的 基本 定义 ， 如 表 8-3 所 示 。 


表 8-3 DBSCAN 算 法 基本 定义 


= 邻 域 给 定 对 象 半径 8 内 的 区 域 称 为 该 样本 点 的 < 邻 域 
核心 对 象 如 果 给 定 对 象 s 邻 域内 的 样本 点 数 大 于 设 定 的 MinPts ， 则 称 该 对 象 为 核心 对 象 

给 定 对 象 集合 D， 如 果 对 象 p 在 对 象 q 的 < 邻 域内 ， 且 p 是 DD 的 一 个 核心 对 象 ， 则 称 对 象 p 
从 对 象 4 出 发 是 直接 密度 可 达 的 

给 定 对 象 集合 D， 如 果 存 在 一 个 对 象 链 pl,，p,，…,，p,,， PIi=4，pP,=p， 
密度 可 达 人 都 有 Pi+1l 与 p; 是 直接 密度 可 达 的 ， 则 称 对 象 p 从 对 象 q 出 发 是 密度 可 

达 芯 

如 果 存 在 对 象 o E D 使 得 对 象 p 和 对 象 q 都 是 从 o 出 发 密度 可 达 的 ， 则 称 对 象 p 从 对 象 q 出 

发 是 密度 相连 的 


百 接 密度 可 达 


密度 相连 


可 以 友 现 ， 密 度 可 达 是 直接 密度 可 达 的 传递 闭 包 ， 并 且 这 种 关系 是 非 对 称 的。 只 有 核心 对 象 之 间 相 互 密度 可 达 。 而 密度 相连 是 对 称 关 系 。DBSCAN 算 法 的 目的 是 找到 所 有 相互 密度 相连 对 象 的 最 大 集 
合 。DBSCAN 算 法 基于 这 样 一 个 事实 : 一 个 聚 类 可 以 由 其 中 的 任何 核心 对 象 唯一 确定 。 等 价 表述 可 以 为 : 任 一 核心 对 象 9， 对 象 集合 D 中 所 有 从 q 密 度 可 达 的 对 象 所 组 成 的 集合 构成 了 一 个 完整 的 聚 类 C 且 
qECq。 所 以 我 们 只 需要 对 所 有 核心 对 象 q 使 用 深度 搜索 找 出 全 部 C 即 可 。 


整个 算法 的 具体 聚 类 过 程 如 下 : 

1) 定义 半径 e 和 MinPts。 

2) 从 对 象 集合 D 中 抽取 未 被 访问 过 的 样本 点 q 

3) 检验 该 样本 点 是 否 为 核心 对 象 ， 如 果 是 则 进入 步骤 4) ， 否 则 返回 步骤 2) 。 

4) 找 出 该 样本 点 所 有 从 该 点 密度 可 达 的 对 象 ， 构 成 肾 类 Cq。 注 意 构成 的 聚 类 Ca 的 边界 对 象 都 是 非 核 心 对 象 否 则 将 继续 进行 深度 搜索 ) 以 及 在 此 过 程 中 所 有 被 访问 过 的 对 象 都 会 被 标记 为 已 被 访问 。 
5) 如 果 全 部 样本 点 都 已 被 访问 ， 则 结束 算法 ， 否 则 返回 步骤 2) 。 


DBSCAN 算 法 能 够 过 滤 低 密 度 区 域 ， 发 现 稠密 样本 点 。 系 统 聚 类 一 般 会 产生 凸 形 聚 类 ， 而 DBSCAN 算 法 可 以 发 现任 意 形状 的 聚 类 。 而 与 K-Means 算 法 比 ，DBSCAN 算 法 不 需要 指定 划分 的 聚 类 个 数 ， 算 


法 能 够 返回 这 个 信息 。DBSCAN 还 有 一 个 很 大 的 优点 是 它 可 以 过 滤 噪声 。 从 时 间 复 杂 度 分 析 ，DBSCAN 的 时 间 复 杂 度 是 O_ (nlogn) ， 比 系统 聚 类 O (n3) 好 很 多 ， 比 K-Means 的 O (nkt) 稍 差 。DBSCAN 
的 时 间 复 杂 度 在 大 数据 下 是 有 可 行 性 的 ， 如 果 我 们 难以 预知 聚 类 数量 ， 我 们 应 该 放弃 K-Means 而 选择 DBSCAN。 


2.Python 实 现 


我 们 还 是 利用 scikit-learn 中 已 经 封装 好 的 DBSCAN 算 法 ,设置 DBSCAN 分 类 器 格式 如 下 : 


clf = sklearn.cluster.DBSCAN (eps=0.3, min samples=10) 


如 算法 原理 所 述 ， 我 们 需要 设 定 两 个 参数 : se 和 MinPts。 这 两 个 参数 需要 根据 我 们 的 经 验 ， 或 根据 多 次 实验 进行 调整 。 代 码 清单 8-3 给 出 了 使 用 此 算法 的 一 个 示例 。 其 效果 图 如 8-5 所 示 。 


代码 清单 8-3 ”DBSCAN 聚 类 实验 


# -*- coding:utf-8 —*— 

# 密度 聚 类 模型 

import numpy as np 

from sklearn.cluster import DBSCAN 

from sklearn import metrics 

from sklearn.datasets.samples generator import make blobs 

from sklearn.preprocessing import StandardScaler 

太太 非 提 ## 非 提审 提 提 ## 提 六 扩 太太 提 提 大 扩 扩 提 提 提 提 六 社 扩 提 提 左 太守 扩 提 提 井 间 六 社 提 提 提 夫 六 社 提 提 提 提 捍 扩 扩 提 提 井 埋 扩 社 提 提 提 提 六 扩 扩 提 提 并 六 扩 扩 提 提 井 间 六 并 

# 获取 make blobs 数 据 

centers = [|[ly 1]; l=1; =1]z Ll; <1|] 

XxX, labels true = make blobs(n samples=750, centers=centers, cluster stdqd=0.4, 
加 random state=0) 


# 数据 预 处 理 
X = StandardScaler() .fit transform (X) 
## 失 六 失 扩 坟 坟 坟 坟 坟 坟 划 坟 坟 划 划 埋 提 提 提 提 提 提 舌 捍 捍 捍 捍 捍 捍 提 提 提 提 提 捍 捍 捍 持 提 持 持 持 持 持 持 持 村 失 失 村 失 失 失 失 扩 社 社 社 坟 坟 坟 坟 坟 坟 划 划 埋 划 埋 提 提 提 提 提 埋 失 
# 执行 DBSCAN 算 法 
db = DBSCAN (eps=0.3, min samples=10) .fit (xX) 
core samples mask = np.zeros like (db.labels , dtype=bool) 
# 标记 核心 对 象 , 后 面 作 图 需要 用 到 
core samples maskldb. core sample indices ] = True 
# 算法 得 出 的 聚 类 标签 , -1 代表 样本 点 是 噪声 点 ,其 余 值 表示 样本 点 所 属 的 类 
labels = db. labels 
# 获取 聚 类 数量 
n clusters = len(set(labels)) - (1 if -1 in labels else 0) 
# 输出 算法 性 能 的 信息 
print ('Estimated number of clusters: %d' %$ n clusters ) 
print ("Homogeneity: %0.3f" $% metrics. homogeneity score (labels true, labels)) 
print ("Completeness: %0.3f" % metrics.completeness _score (labels true, labels)) 
print ("V-measure: %0.3f" % metrics.v measure score(labels true, labels)) 
print ("Adjusted Rand Index: $0.3f" 
多 metrics.adjusted rand score(labels true, labels)) 
print ("Agdjusted Mutual Information: $0.3f" 
gs metrics.adjusted mutual info score(labels true, labels)) 
print (“Silhouette Coefficient: %0.3f" 
gs metrics.silhouette score(X, labels)) 
太太 井 提 提 ## 非 太 提 音 扩 提 间 六 提 ## 扩 扩 提 六 扩 提 埋 扩 提 间 扩 扩 提 六 扩 提 捍 社 提 埋 扩 提 井 社 提 提 六 扩 提 音 坟 提 埋 扩 提 提 扩 扩 提 扩 扩 提 太守 提 间 扩 提 间 扩 提 井 六 扩 提 音 提 提 间 六 提 大 
# 绘 
import matplotlib.pyplot as pilt 
# 黑色 用 作 标 记 噪 声 点 
unique labels = set (labels) 
colors = plt.cm.Spectral (np.linspace (0, 1, len(unique labels))) 
i = -1 
# 标记 样式 ,Xx 表示 噪声 点 
marker = yO] 
for k, col in zip(unique labels, colors): 
if k == -1: 
# 黑色 表示 标记 噪声 点 
Col = "Kk" 
lass member mask = (labels == K) 
i += 1 
EF (i>=1en (unique_ labels)): 
i=0 
绘制 核心 对 象 


xy = X[class _ member mask & core samples mask] 


他 


lis 


plt.plot (xy[:, 0], xy[:, 1], marker[i], markerfacecolor=col, 
markeredgecolor='k', markersize=14) 

# 绘制 非 核心 对 象 

Xy = X[class member mask & ~core samples mask] 

plt.plot (xy[:, 0], xy[:, 1], marker[i], markerfacecolor=col, 

markeredgecolor='k', markersize=6) 

t .title('Estimated number of clusters: %d' $$ n clusters ) 

[七 .Show () 


Dp 
loa 


* 代 码 详 见 : 示例 程序 /code/8-3.py 


ep. Estimated number of clusters: 3 
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图 8-5 DBSCAN 聚 类 效果 


分 析 图 8-5，DBSCAN 算 法 能 够 很 好 地 去 除 噪声 ， 聚 类 效果 也 比较 理想 。 图 中 较 大 的 样本 点 是 核心 对 象 ， 较 小 的 样本 点 是 非 核心 对 象 ， 以 非 核心 对 象 为 界 的 思想 能 够 较 好 地 划分 类 。 借 助 scikit-learn 模 
块 我 们 能 够 轻松 使 用 各 种 聚 类 算法 ， 但 我 们 必须 了 解 算法 背后 的 原理 ， 知 道 如 何 调节 算法 的 参数 ， 这 样 才 会 取得 好 的 聚 类 效果 。 


8.4 上 机 实验 


1. 实 验 目 的 
: 掌握 区 -Means 算 法 原理 。 


. 掌握 使 用 Python 的 scikit-learn 模 块 进行 聚 类 分 析 。 


2. 实 验 内 容 
实验 一 


编程 实现 K-Means 算 法 ， 要 求 输 入 参数 至 少 有 2 个 : 样本 数据 X (支持 多 维 数据 ) 和 聚 类 个 数 n_clusters。 输 出 参数 至 少 有 2 个 : 每 个 类 的 中 centers 和 样本 数据 的 分 类 标签 labels. 
实验 二 


使 用 聚 类 实现 对 手写 数字 识别 。 数 据 集 采 用 scikit-learn 模 块 的 digits 数 据 集 ， 在 6.5 节 我 们 曾 使 用 SVM 算法 对 其 进行 分 类 ， 而 本 实验 要 求 使 用 聚 类 算法 对 数据 进行 分 类 。 读 者 可 以 借助 scikit-learn 封 装 好 
的 聚 类 函数 ， 也 可 以 使 用 实验 一 中 自己 实现 的 聚 类 算法 。 建 议 读者 使 用 K-Means 算 法 和 系统 聚 类 算法 并 进行 算法 性 能 的 对 比 。 


3. 实 验 步骤 提示 
实验 二 


1) 导入 digits 数 据 集 : 


from sklearn.datasets import load digits 
digits = load digits() 


2) 数据 正则 化 ， 将 数据 的 范围 限制 在 [0，1]。 这 步 不 是 必须 的 ， 但 会 提升 聚 类 效果 。 


data = scale (digits.data) 


3) 进行 聚 类 ， 得 到 聚 类 后 的 数据 标签 。 
4) 算法 性 能 分 析 ， 可 从 运行 时 间 和 聚 类 效果 去 评价 算法 。Python 的 time 模 块 中 有 遂 数 time.time () 可 获取 当前 时 间 ， 将 算法 运行 前 和 运行 后 的 时 间 做 差 便 可 得 到 算法 的 运行 时 间 。 而 评价 聚 类 效果 的 
方法 有 多 种 ， 例 如 对 比 预 测 标签 和 数据 标签 ， 得 出 聚 类 的 正确 率 。scikit-learn 的 metrics[1] 模 块 有 多 种 评价 聚 类 效果 的 指标 ， 读 者 可 作 参 考 。 


[1] http://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-mettics 


第 9 草 ”关联 规则 分 析 


关联 规则 反映 了 不 同事 物 之 间 的 关联 性 ， 其 关系 通常 表现 为 一 对 一 或 者 一 对 多 ， 关 联 规则 分 析 则 是 从 事务 数据 库 、 关 系数 据 库 和 其 他 信息 存储 中 的 大 量 数 据 的 项 集 之 间 发 现 有 趣 的 、 频 繁 出 现 的 模式 、 
关联 和 相关 性 。 更 确切 地 说 ， 关 联 规则 通过 量化 的 数字 描述 物品 甲 的 出 现 对 物品 乙 的 出 现 有 多 大 的 影响 。 它 的 模式 属于 描述 型 模式 ， 发 现 关 联 规则 的 算法 属于 无 监督 学 习 的 方法 。 关 联 规则 分 析 也 是 数据 控 
掘 中 最 活跃 的 研究 方法 之 一 ， 广 泛 运用 于 购物 篮 数据 、 生 物 信息 学 、 医 疗 诊断 、 网 页 挖 气 和 科学 数据 分 析 中 。 


关联 规则 分 析 又 被 称 为 购物 篮 分 析 ， 最 早 是 为 了 发 现 超市 销售 数据 库 中 不 同 的 商品 之 间 的 关联 关系。 例如 一 个 超市 的 经 理想 要 更 多 地 了 解 顾 客 的 购物 习惯 ， 比 如 “ 哪 组 商品 可 能 会 在 一 次 购物 中 同时 购 
买 ? ”或 者 “ 某 顾客 购买 了 个 人 电脑 ， 那 该 顾客 三 个 月 后 购买 数码 相机 的 概率 有 多 大 ? ”他 可 能 会 发 现 购买 了 面包 的 顾客 同时 非常 有 可 能 会 购买 牛奶 ， 这 就 导出 了 一 条 关联 规则 “面包 > 牛奶 ”， 其 中 面包 
称 为 规则 的 前 项 ， 而 牛奶 称 为 后 项 。 通 过 对 面包 降低 售 价 进行 促销 ， 而 适当 提高 牛奶 的 售 价 ， 关 联 销售 出 的 牛奶 就 有 可 能 增加 超市 整体 的 利润 。 还 有 一 个 最 常 听 到 的 例子 就 是 著名 的 “啤酒 与 尿布 ”， 这 个 
例子 也 许 不 是 那么 真实 ， 但 是 却 能 很 好 地 说 明 关 联 规 则 的 概念 。 


关联 规则 分 析 是 数据 挖掘 中 最 活跃 的 研究 方法 之 一 ， 目 的 是 在 一 个 数据 集中 找 出 各 项 之 间 的 关联 关系 ， 而 这 种 天 系 并 没有 在 数据 中 直接 表示 出 来 。 
目前 ， 常 用 的 关联 规则 分 析 算 法 如 表 9-1 所 示 。 
表 9-1 常用 关联 规则 算法 

算法 名 称 算法 摘 述 

天 联 规则 最 和 用 也 是 最 经 典 的 挖掘 频 索 项 集 的 算法 ， 其 核心 思想 是 通过 连接 产生 候选 项 及 其 文 
持 度 然 后 通过 甬 权 生成 频 至 项 集 

Eclat 算法 是 一 种 深度 优先 算法 ， 采 用 垂下 数据 表示 形式 ， 在 概念 格 理 论 的 基础 上 利用 基于 前 级 
的 等 价 关 系 将 搜索 空间 划分 为 较 小 的 子 空间 

针对 Apriori 算法 的 固有 的 多 次 扫描 事务 数据 集 的 缺陷 ， 提 出 的 不 产生 候选 频繁 项 集 的 方法 。 
Apriori 和 FP-Tree 都 是 寻找 频繁 项 集 的 算法 

分 析 和 确定 各 因素 之 间 的 影响 程度 或 是 夺 干 个 子 因 系 ( 子 序列 ) 对 主因 系 ( 母 序列 ) 的 贡献 度 而 
进行 的 一 种 分 析 方 法 


Aprlorl 


Eclat 算法 


FP-Tree 


灰色 关联 法 


这 几 种 方法 里 ， 目 前 在 Python 中 实现 的 效果 较 好 的 为 Apriori 算 法 。 本 章 主要 重点 介绍 Apriori 算 法 及 其 在 Python 中 的 实现 。 


9.1 Apriori 关 联 规则 算法 


以 超市 销售 数据 为 例 ， 提 取 关 联 规则 的 最 大 困难 在 于 当 存 在 很 多 商品 时 ， 可 能 的 商品 的 组 合 (规则 的 前 项 与 后 项 ) 的 数目 会 达到 一 种 令 人 望而却步 的 程度 。 因 而 各 种 关联 规则 分 析 的 算法 分 别 从 不 同方 
面 着 手 减 小 可 能 的 搜索 空间 的 大 小 以 及 减 小 扫描 数据 的 次 数 。Apriori 算 法 是 最 经 典 的 挖掘 频繁 项 集 的 算法 ， 第 一 次 实现 了 在 大 数据 集 上 可 行 的 关联 规则 提取 ， 其 核心 思想 是 通过 连接 产生 候选 项 与 其 支持 
度 ， 然 后 通过 剪 校 生成 频繁 项 集 。 


(1) 关联 规则 的 一 般 形式 

项 集 A、B 同 时 发 生 的 概率 称 为 关联 规则 的 支持 度 (也 称 相对 支持 度 ) : 
Support (A=>B) =P (AmB) 

项 集 A 发 生 ， 则 项 集 B 发 生 的 概率 为 关联 规则 的 置信 度 : 

Confidence (A=>B) =P (BIA) 

(2) 最 小 支持 度 和 最 小 置信 度 


最 小 支持 度 是 用 户 或 专家 定义 地 衡量 支持 度 的 一 个 阅 值 ， 表 示 项 目 集 在 统计 意义 上 的 最 低 重 要 性 。 最 小 置信 和 度 是 用 户 或 专家 定义 地 衡量 置信 和 度 的 一 个 阐 值 ， 表 示 关 联 规则 的 最 低 可 靠 性 。 同 时 满足 最 小 
支持 度 辣 值 和 最 小 置信 度 立 值 的 规则 称 作 强 规则 。 


(3) 项 集 


项 集 是 项 的 集合 。 包 含 k 个 项 的 项 集 称 为 k 项 集 ， 如 集合 {牛奶 ， 麦 片 ， 糖 } 是 一 个 3 项 集 。 


项 集 的 出 现 频 率 是 所 有 包含 项 集 的 事务 计数 ， 又 称 作 绝 对 支持 度 或 支持 度 计 数 。 如 果 项 集 | 的 相对 支持 度 满足 预定 义 的 最 小 支持 度 阅 值 ， 则 | 是 频繁 项 集 。 频 繁 k 项 集 通 常 记 作 Lk。 
(4) 支持 度 计数 
项 集 A 的 支持 度 计 数 是 事务 数据 集中 包含 项 集 A 的 事务 个 数 ， 简 称 为 项 集 的 频率 或 计数 。 


已 知 项 集 的 支持 度 计数 ， 则 规则 A= > B 的 支持 度 和 置信 度 很 容易 从 所 有 事务 计数 、 项 集 A 和 项 集 AU B 的 支持 度 计 数 推出 : 
A,B 同时 发 生 的 事务 个 数 ~ Support —count(AMB) 
所 有 事务 个 数 Total — count( A) 


Supportl(AMB) Support—count(AMB) 


Support(A —> B)= 


Confidence( A = B)= P(B| A)= 
Support( A) Support — count( A) 


也 就 是 说 ,一 旦 得 到 所 有 事务 个 数 ， 且 A、B 和 AUB 的 支持 度 计数 ， 就 可 以 导出 对 应 的 关联 规则 A=>B 和 B= >A， 并 可 以 检查 该 规则 是 否 是 强 规则 。 
9.2 Apriori 在 Python 中 的 实现 
下 面 通过 餐饮 企业 中 的 例子 演示 Apriori 在 Python 中 的 实现 。 客 户 在 餐厅 点 餐 时 ， 面 对 菜单 中 大 量 的 菜品 信息 ， 往 往 无 法 迅速 找到 满意 的 菜品 ， 既 增加 了 点 菜 的 时 间 ， 也 降低 了 客户 的 就 餐 体 验 。 实 际 


上 ,菜品 的 合理 搭配 是 有 规律 可 循 的 : 顾客 的 饮食 习惯 、 菜 品 的 荤 素 和 口味 ， 有 些 菜品 之 间 是 相互 关联 的 ， 而 有 些 菜品 之 间 是 对 立 或 竞争 关系 ( 负 关 联 ) ， 这 些 规 律 都 隐藏 在 大 量 的 历史 菜单 数据 中 ， 如 果 
能 够 通过 数据 挖掘 发 现 客户 点 餐 的 规则 ， 就 可 以 快速 识别 客户 的 口味 ， 当 他 下 了 某 个 菜品 的 订单 时 推荐 相关 联 的 菜品 ， 引 导 客 户 消费 ， 提 高 顾客 的 就 餐 体验 和 餐饮 企业 的 业绩 水 平 。 


数据 库 中 部 分 点 餐 数 据 如 表 9-2 所 示 : 


首先 将 表 9-2 中 的 事务 数据 (一 种 特殊 类 型 的 记录 数据 ) 整理 成 关联 规则 模型 所 需 的 数据 结构 ， 从 中 抽取 10 个 点 餐 订 单 作为 事务 数据 集 ， 为 方便 起 见 将 菜品 {18491，8842，8693，7794，8705}) 分 别 简 
记 为 {a，b，c，d，e}) 如 表 9-3 所 示 。 


订单 号 | 菜品 id | 菜品 名 称 
2014/8/21 8 491 | 健康 麦 香 包 
2014/8/21 8 693 | 香 煎 芍 油 饼 
2014/8/21 8 705 | 莉 荣 维和 理 黄 人 饮 
2014/8/21 菜 心 粒 咸 骨 路 
2014/8/21 94 | 养颜 红 束 糕 
2014/8/21 8 842 | 金 丝 燕麦 包 
2014/8/21 8 693 | 三 丝 炒 河 粉 


友 列 


表 9-3 某 餐 厅 事 务 数据 集 


18491, 8693 ，8705 
8842,7794 

8842 ，8693 

18491, 8842，8693，7794 
18491，8842 

8842 ，8693 

18491，8842 

18491, 8842,8693,8705 
18491,，8842,8693 


l= 
a 


18491 ，8093 


在 Python 中 实现 运用 Apriori 算 法 做 关联 规则 分 析 的 代码 如 代码 清单 9-1 所 示 。 其 中 ， 我 们 自行 编写 了 Apriori 算 法 的 函数 apriori.py， 读 者 有 需要 的 时 候 可 以 直接 使 用 。 
使 用 Apriori 函 数 前 需要 将 原始 数据 转换 为 0-1 德 阵 ， 之 后 设置 参数 ，data 为 转换 好 的 0-1 和 矩阵 ，support 为 最 小 支持 度 ，confidence 为 最 小 置信 和 度 ，ms 为 连接 符 。 


代码 清单 9-1 Apriori 算 法 调用 代码 


#-*— coding: utf-8 一 * 一 
# 使 用 Apriori 算 法 挖掘 菜 品 订单 的 关联 规则 
from future import print function 


import pandas as pd 

from apriori import * # 导 入 自行 编写 的 apriorI 函 数 

inputfile = 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../data/menu orqers .XLSs' 

outputfile = 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/OEBPS/Text/../tmp/apriori rules.xls' # 结 果 文 件 
data = pd.read excel (inputfile, header = None) 
print (u'\n 转 换 原始 数据 至 0-1 和 矩阵 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/OEBPS/Text/...') 
ct = lambda x : pd.Series (1，index = x[pd.notnull (x)]) # 转 换 0-1 和 矩阵 的 过 渡 函 数 

b = map(ct, data.as matrix()) # 用 map 方 式 执 行 

data = pd.DataFrame (Jjist (b) ) .fillna(0) 塌实 现 拭 阵 转 换 ， 空 值 用 0 填充 

print (u'\n 转 换 完毕 。') 

del b # 删 除 中 间 变 量 pD， 节 省 内 存 

support = 0.2 # 最 小 支持 度 

confidence = 0.5 # 最 小 置信 度 

ms = ---"” 井 连 接 符 ， 默 认 "--"， 用 来 区 分 不 同 元 素 ， 如 A--B。 需 要 保证 原始 表格 中 不 含有 该 字符 
find rule(data, support, confidence, ms) .to excel (outputfile) # 保 存 结 


* 代 码 详 见 : 示例 程序 /code/9-1.py 


其 中 ， 转 换 出 的 矩阵 为 : 


a b @ (el e 
QO Td O00 TO O00 了 
1 0.0 1.0 0.0 1.0 0.0 
2 0Q0 1.0 10 O00 ‘00 
3 Ts0. :10 LQ 110 V0 
4 1.0 1.0 0.0 0.0 0.0 
5 Q0 10. 10 “0i0. 050 
6 Ti0 ‘10 ‘00 ‘0D O00 
2 Ld LQ Ld O00 TO0 
8 1.0 1.0 1.0 0.0 0.0 
9 TaQ ‘QO TQ OO TQ0 


将 原始 的 事务 性 数据 转换 为 0-1 矩 阵 后 ，Apriori 算 法 才 可 以 运行 。 


Python 程序 输出 的 结果 如 下 : 


EE 


正在 进行 第 1 次 搜索 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0E 
support confidence 


BPS/Text/... 数 目 : 6http://www.hzcourse.com/resource/readBook?path=, 


Emacsi D0ia3 1.000000 
= 0 ,3 1.000000 
(i = ezi Us 1.000000 
[i 0,.3 1.000000 
a===D Qi3 0.714286 
一 一 全 0,.3 0.714286 
==0 0.5 0.714286 
C===bB QO.3 0.714286 
b===a 0,3 0.625000 
B= 性 :5 0.625000 
= 已 = 一 二 各 05a 0.600000 
站 0.3 0.600000 
a===b===G Us 0.600000 
-== = 从 0.3 0.600000 


对 输出 结果 进行 解释 : 如 关联 规则 “a---b 0.50.714286” 这 条 ， 关 联 规则 a---b 的 支持 度 support=0.5， 置 信和 度 confidence=0.714286。 对 于 餐饮 业 来 说 ， 这 条 规则 意味 着 客户 同时 点 菜品 a 和 b 的 概率 
是 50%， 点 了 菜品 a， 表 点 菜品 b 的 概率 是 71.4286%。 知 道 了 这 些 ， 就 可 以 对 顾客 进行 智能 推荐 ， 增 加 销量 同时 满足 客户 需求 。 


9.3 小 结 


常用 的 关联 规则 算法 包括 Apriori、Eclat、FP-Tree 等 。 本 章 主 要 介绍 了 Apriori 算 法 的 基本 概念 ， 并 结合 一 个 例子 演示 了 在 Python 中 如 何 实现 Apriori 算 法 。Apriori 算 法 要 求 先 将 原始 的 事务 型 数据 转化 
为 0-1 和 矩阵 ， 才 可 以 运行 ， 使 用 中 需要 注意 这 点 。 最 后 ， 对 算法 输出 的 结果 做 出 说 明 解 释 。 


9.4 上 机 实验 


1. 实 验 目的 
" 了解 关联 分 析 的 常用 算法 和 实际 应 用 。 


"了解 关 联 分 析 的 常用 函数 。 


应 用 Python 进行 关联 分 析 ， 包 括 对 频繁 数据 集 的 探索 、 关 联 规则 的 建立 和 结果 的 分 析 。 

. 对 于 数据 集 Income， 使 用 Apriofi 算 法 建立 关联 规则 。 

3. 实 验 步骤 提示 

1) 获取 数据 集 Income， 查 看 数据 集 Income 的 前 五 个 事项 ， 了 解数 据 集 的 项 集 以 及 具体 内 容 。 

2) 查看 Income 中 各 个 项 的 支持 度 ， 并 单独 查看 项 “age=14-34” 和 项 “sex=male” 的 支持 度 ， 查 看 支持 度 最 大 的 前 10 个 项 。 


3) 以 最 小 支持 度 为 0.1， 最 小 置信 度 为 0.5 建 立 Apriori 关 联 规则 ， 得 到 的 关联 规则 记 为 rule1; 以 最 小 支持 度 为 0.1， 最 小 置信 度 为 0.6 建 立 Apriori 关 联 规则 ， 得 到 的 关联 规则 记 为 rule2; 以 最 小 支持 度 为 
0.2， 最 小 置信 度 为 0.5 建 立 Apriori 关 联 规则 ， 得 到 的 天 联 规则 记 为 rule3。 比 较 三 个 关联 规则 的 数目 。 


1) 对 于 不 同 的 数据 类 型 ， 怎 样 实现 关联 规则 分 析 ? 


2) 如 何 评估 关联 规则 分 析 的 效果 ? 


第 10 章 ”智能 推荐 


言 息 大 爆炸 时 代 来 临 ， 用 户 在 面 对 大 量 的 信息 时 无 法 从 中 迅速 获得 对 自己 真正 有 用 的 信息 。 传 统 的 搜索 系统 ， 需 要 用 户 提供 明确 需求 ， 从 用 户 提供 的 需求 信息 出 友 ， 继 而 给 用 户 展现 信息 ， 无 法 针对 不 
同 用 户 的 兴趣 爱好 提供 相应 地 信息 反馈 服务 。 推 荐 系统 ， 相 比 于 搜索 系统 ， 不 需要 用 户 提 供 明 确 需求 ， 便 可 以 为 每 一 个 用 户 实现 个 性 化 的 推荐 结果 ， 让 每 个 用 户 更 便捷 地 获取 信息 。 它 是 根据 用 户 的 兴趣 特 
点 和 购买 行为 ， 向 用 户 推 荐 用 户 感 兴趣 的 信息 和 商品 。 


智能 推荐 的 方法 有 很 多 ， 常 见 的 推荐 技术 主要 分 为 : 基于 用 户 的 协同 过 滤 推 荐 和 基于 物品 的 协同 过 滤 推 荐 。 


基于 用 户 的 协同 过 滤 的 基本 思想 相当 简单 ， 基 于 用 户 对 物品 的 偏好 找到 邻居 用 户 ， 然 后 将 邻居 用 户 喜欢 的 推荐 给 当前 用 户 。 计 算 上 ， 就 是 将 一 个 用 户 对 所 有 物品 的 偏好 作为 一 个 向 量 来 计算 用 户 之 间 的 
相似 度 ， 找 到 K 邻 居 后 ， 根 据 邻 居 的 相似 度 权 重 以 及 他 们 对 物品 的 偏好 ， 预 测 当前 用 户 没有 偏好 的 未 涉及 物品 ， 计 算得 到 一 个 排序 的 物品 列表 作为 推荐 。 图 10-1 给 出 了 一 个 例子 ， 对 于 用 户 A， 根 据 用 户 的 历 
史 偏 好 ， 这 里 只 计算 得 到 一 个 邻居 用 户 C， 然 后 将 用 户 C 喜 欢 的 物品 D 推 荐 给 用 户 A。 


基于 物品 的 协同 过 滤 的 原理 和 基于 用 户 的 协同 过 滤 的 原理 类 似 ， 只 是 在 计算 邻居 时 采用 物品 本 身 ， 而 不 是 从 用 户 的 角度 ， 即 基于 用 户 对 物品 的 偏好 找到 相似 的 物品 ， 然 后 根据 用 户 的 历史 偏好 ， 推 荐 相 
似 的 物品 给 他 。 从 计算 的 角度 看 ， 就 是 将 所 有 用 户 对 某 个 物品 的 偏好 作为 一 个 向 量 来 计算 物品 之 间 的 相似 度 ， 得 到 物品 的 相似 物品 后 ， 根 据 用 户 历 史 的 偏好 预测 当前 用 户 还 没有 表示 偏好 的 物品 ， 计 算得 到 
一 个 排序 的 物品 列表 作为 推荐 。 图 10-2 给 出 了 一 个 例子 ， 对 于 物品 A， 根 据 所 有 用 户 的 历史 偏好 ， 喜 欢 物品 A 的 用 户 都 喜欢 物品 C， 得 出 物品 A 和 物品 C 比 较 相 似 ， 而 用 户 C 喜 欢 物品 A 人， 那么 可 以 推断 出 用 户 C 
可 能 也 喜欢 物品 C。 
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图 10-1 基于 用 户 的 协同 过 滤 示 意图 


用 户 C 


图 10-2 ”基于 物品 的 协同 过 滤 示 意图 


10.1 基于 用 户 的 协同 过 滤 算 法 


以 电影 评分 数据 为 例 ， 实 现 基 于 用 户 的 协同 过 滤 算 法 第 一 个 重要 的 步骤 就 是 计算 用 户 之 间 的 相似 度 。 而 计算 相似 度 ， 建 立 相关 系数 矩阵 目前 主要 分 为 以 下 几 种 方法 。 
(1) 皮尔 逊 相关 系数 


皮尔 逮 相关 系数 一 般 用 于 计算 两 个 定 距 变 量 间 联 系 的 紧密 程度 ， 它 的 取 值 在 [-1，+1] 之 间 。 用 数学 公式 表示 ， 皮 尔 逮 相关 系数 等 于 两 个 变量 的 协 方 差 除 于 两 个 变量 的 标准 差 。 计 算 公 式 如 下 所 示 : 


X,Y) = ov(X,Y 


OyO, 


由 于 皮尔 逮 相关 系数 描述 的 是 两 组 数据 变化 移动 的 趋势 ， 所 以 在 基于 用 户 的 协同 过 滤 系 统 中 ， 经 常 使 用 。 描 述 用 户 购买 或 评分 变化 的 趋势 ， 阁 趋势 相近 则 皮尔 逊 系数 趋 近 于 1， 也 就 是 我 们 认为 相似 的 用 
a 


(2) 基于 欧 几 里 德 距离 的 相似 度 


欧 几 里 德 距离 计算 相似 度 是 所 有 相似 度 计 算 里 面 最 简单 、 最 易 理 解 的 方法 。 它 以 经 过 人 们 一 致 评价 的 物品 为 坐标 轴 ， 然 后 将 参与 评价 的 人 绘制 到 坐标 系 上 ， 并 计算 他 们 彼此 之 间 的 直线 距离 >,*-”。 计 


算出 来 的 欧 几 里 德 距离 是 一 个 大 于 0 的 数 ， 为 了 使 其 更 能 体现 用 户 之 间 的 相似 度 ， 可 以 把 它 规约 到 (0，1] 之 间 ， 最 终 得 到 如 下 计算 公式 : 


s(X,Y 


1+ > V(X,—Y) 


只 要 至 少 有 一 个 共同 评分 项 ， 就 能 用 欧 几 里 德 距离 计算 相似 度 。 如 果 没有 共同 评分 项 ， 那 么 欧 几 里 德 距离 也 就 失去 了 作用 。 其 实 照 常理 ， 如 果 没 有 共同 评分 项 ， 那 么 意味 着 这 两 个 用 户 或 物品 根本 不 相 
似 。 


(3) 余弦 相似 度 


余弦 相似 度 用 向 量 空间 中 两 个 向 量 夹 角 的 余弦 值 作为 衡量 两 个 个 体 间 差异 的 大 小 。 余 弦 相 似 度 更 加 注重 两 个 向 量 在 方向 上 的 差异 ， 而 非 在 距离 或 长 度 上 。 计 算 公式 如 下 所 示 : 


从 图 10-3 可 以 看 出 距离 度量 衡量 的 是 空间 各 点 间 的 绝对 距离 ， 跟 各 个 点 所 在 的 位 置 坐标 ( 即 个 体 特征 维度 的 数值 ) 直接 相关 ; 而 余弦 相似 度 衡量 的 是 空间 向 量 的 夹 角 ， 更 加 注重 的 是 体现 在 方向 上 的 差 
异 ， 而 不 是 位 置 。 如 果 保 持 X 点 的 位 置 不 变 ，Y 点 朝 原 方向 远离 坐标 轴 原 点 ， 那 么 这 个 时 候 余弦 相似 度 是 保持 不 变 的 ， 因 为 夹 角 不 变 ， 而 X、Y 两 点 的 距离 显然 在 发 生 改 变 ， 这 就 是 欧 氏 距离 和 余弦 相似 度 的 不 
同 之 处 。 

基于 用 户 的 协同 过 滤 算 法 ， 另 一 个 重要 的 步骤 就 是 计算 用 户 u 对 未 评分 商品 的 预测 分 值 。 首 先 根据 上 一 步 中 的 相似 度 计 算 ， 寻 找 用 户 u 的 邻居 集 NEU， 其 中 N 表 示 邻 居 集 ，U 表 示 用 户 集 。 然 后 ， 结 合 
户 评 分 数据 集 ， 预 测 用 户 u 对 项 的 评分 ， 计 算 公 式 如 下 所 示 : 


/ 『 要 本 
S UH ,eh, 


uN 


Pi 二 也 十 


,1 


Dist(X,Y) 


图 10-3 ”余弦 相似 度 
其 中 ，s (uy-u') 表示 用 户 u 和 用 户 u' 的 相似 度 。 


最 后 ， 基 于 对 未 评分 商品 的 预测 分 值 排序 ， 得 到 推荐 商品 列表 。 


10.2 ”基于 用 户 的 协同 过 滤 算 法 在 Python 中 的 实现 

下 面 通过 个 性 化 的 电影 推荐 的 例子 演示 基于 用 户 的 协同 过 滤 算法 在 Python 中 的 实现 。 现 在 影视 已 经 成 为 大 众 在 喜爱 的 休闲 娱乐 的 方式 之 一 ， 合 理 的 个 性 化 电影 推荐 一 方面 能 够 促进 电影 行业 的 发 展 ， 另 
一 方面 也 可 以 让 大 众 在 数量 众多 的 电影 中 迅速 得 到 自己 想 要 的 电影 ， 从 而 做 到 两 全 齐 美 。 甚 至 更 进一步 ， 可 以 明确 市 场 走向 、 对 后 续 电影 的 类 型 导向 等 起 到 重要 作用 。 

现 有 的 部 分 电影 评分 数据 如 表 10-1 所 示 : 


表 10-1 脱 敏 后 的 电影 评分 数据 


在 Python 中 实现 基于 用 户 的 协同 过 
recommender.py， 以 方便 读者 参考 。 


代码 清单 10-1 


协同 过 


才 滤 算法 函数 


系 乡 1D 


才 滤 推荐 系统 首先 需要 计算 用 户 之 间 的 相关 系数 。 实 现代 码 如 代码 清单 10-1 所 示 。 其 中 ， 我 们 自行 编写 了 基于 用 户 的 皮尔 逊 相似 度 的 协同 过 


电影 评分 


时 间 标 签 
874965758 
876893171 
878542960 
876893119 
889751712 
875071561 
875072484 


才 滤 算法 函数 


#-*— coding: utf 


=8 


一 大 一 


import numpy as np 
import pandas as pd 
import math 
def prediction (df,userdf, Nn=15) :#Nn 邻 拓 个 数 
Corr=df ,TT,GOoOrr()» 
rats=userdf .copy () 
for usrid in userdf.index: 
dfnull=df.loc[usrid] [df.loc[lusrid] .isnull()] 
usrv=df.loc[usrid] .mean ()# 评 价 平均 值 
for > in range (len (dfnull)): 
ft= (df [dfnull.index[i]]) .notnull () 
# 获 取 倒 居 列 表 
if (Nn<=len (nft)) 
nlist=df[dfnull.index[i]] [nft][:Nn] 
else: 
nlist=df[dfnull.index[i]] [nft][:len (nft)] 
nlist=nlist[corr.loc[usrid,nilist.index] .notnull ()] 
nratsum=0 
Corsum=0 
if(0!=nlist.size): 
nv=df.loc[nlist.index, :] .T.mean ()# 和 邻居 评价 平均 值 
for index in nlist.index: 
ncor=corr.loc[usrid,index] 
nratsum+=ncor* (df [dfnull.index[i]] [index] -nv[index]) 
COFSUm+=abs (ncor) 
if (corsum!=0): 
rats.at[usrid,dfnull.index[i]]= usrv + nratsum/corsum 
else: 
rats.at[usrid,dfnull.index[i]]= usrv 
else: 
rats.atl[usrid,dfnull.index[i]]= None 
return rats 
def recomm(df,userdf,Nn=15,TopN=3): 
ratings=prediction (df,userdf,Nn)# 获 取 预 测评 分 
zecomm= []# 存 放 推 荐 结果 


for usrid in userdf 


.jndex: 


# 获 取 按 NA 值 获取 未 评分 项 


Ea 


t=userdf. 


isnull 


oc [usridl] . 


一 、 


) 


ratnull] a nye el 
# 对 预测 评分 进行 排序 


[usrid] [ratft] 


ort values (ascending=False)) .index[:TopN] 


if (lenl(ratnull)>=TopN): 
sortlist=(ratnull.s 

else: 
sortlist=ratnull.so 


rt values (ascending=False) 


recomm.append (sortl1 


ist) 


return ratings,recomm 


.jndex[:len (ratnull)] 


* 代 码 详 见 : 


示例 程序 /code/recommendetr.py 


将 原始 的 事务 性 数据 导入 Python 中 ， 因 原始 数据 无 字段 名 ， 所 以 首先 对 相应 的 字段 进行 重 命名 ， 然 后 再 运行 基于 用 户 的 协同 过 滤 算 法 。 实 现代 码 如 代码 清单 10-2 所 示 。 


代码 清单 10-2 ”协同 过 滤 算法 实现 


#-*— coding: utf-8 —*— 

# 使 用 基于 UBCF 算 法 对 电影 进行 推荐 

from future import print function 
import pandas as pd 

太太 非 提 ## 非 提审 提 ## 提 大 主 程序 ## 非 ## 非 非 六 提 提 井 # 间 六 提 提 
if name == " main ": 

Print (NANn= 一 一 一 一 一 一 一 一 一 一 一 一 一 使 用 基于 UBCF 算 法 对 电影 进行 推荐 运行 中 http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/OEBPS/Text/... -------- 
traindata = pd.read csv('http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../data/ul.base',sep='\t', header=None, inde 
testdata = pd.read csv('http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../data/ul.test',sep='\t', header=None,index 
# 删 除 时 间 标 签 列 
traindata.drop (3,axis=1l, inplace=True) 
testdata.drop (3,axis=1, inplace=True) 

# 行 与 列 重 新 命名 
traindata.rename (columns={0:'userid',1:'movid',2:'rat'}, inplace=True) 
ata.rename (columns={0:'userid',1:'movid',2:'rat'}, inplace=True) 
traindf=traindata.pivot (index="'userid', columns='movid', values="'rat') 
testdf=testdata.pivot (index="'userid', columns='movid', values="'rat') 
df.rename (index={i:'usr%sd'%$(i) for i in traingdf.index} , inplace=True) 
traindf.rename (columns={i:'mov%sd'%(i) for i in traindf.columns} , inplace=True) 
testdf.rename (index={i:'usr%d'%$(i) for i in testdf.index} , inplace=True) 
testdf.rename (columns={i:'mov%d'%$(i) for i in testdf.columns} , inplace=True) 
userdf=traindf.locltestdf.ingdex] 
# 获 取 预 测评 分 和 推荐 列表 
trainrats,trainrecomm=recomm (traindf,userdf 


~ 一 


* 代 码 详 见 : 示例 程序 /code/10-1.py 


Python 程 序 输 出 的 结果 如 下 : 


usrl ([u'movi290', u'movl354', u'mov1i678'], dtype='object', name=u'movid'), 
usr2([u'movi491', u'movl354', u'mov1l371'], dtype='object', name=u'movid'), 
usr3([u'movil304', u'mov1i621', u'mov1i678'], dtype='object', name=u'movid'), 
usr4([u'movi502', u'mov1i659', u'mov1i304'], dtype='object', name=u'movid'), 
usr5([u'movil304', u'mov1i621', u'mov1i472'], dtype='object', name=u'movid'), 
usr6([u'movi618', u'movi671', u'mov1i357'], dtype='object', name=u'movid'), 
usr7([u'movi472', u'movi467', u'mov1i374'], dtype='object', name=u'movid'), 
usr8([u'movi659', u'movl316', u'mov1i494'], dtype='object', name=u'movid'), 
usr9([u'movi621', u'movl304', u'mov1i491'], dtype='object', name=u'movid'), 
usr1l0([u'movi486', u'movi494', u'mov437'], dtype="'object', name=u'movid'), 
usrll([u'movi659', u'movi654', u'mov1i626'], dtype='object', name=u'movid"'), 
usSr12([u'movi659', u'movi618', u'movi661'], dtype='object', name=u'movid'), 
usrl3([u'mov1i486', u'movi494', u'movi662'], dtype='object', name=u'movid'), 
usr1l4([u'movi661', u'movi308', u'mov1i671'], dtype='object', name=u'movid'"'), 
usrl5([u'movi626', u'movi671', u'mov1i678'], dtype='object', name=u'movid"'), 
usrl6([u'mov1i618', u'movi486', u'movi494'], dtype='object', name=u'movid'), 
usrl7([u'mov1i316', u'movi621', u'movil304'], dtype='object', name=u'movid'), 
usrl8([u'movi618',u'mov1i654',u'movi626'], dtype='object', name=u'movid'), 
usrl9([u'movil316', u'movi661', u'movi275'], dtype='object', name=u'movid') 
usSr20 ([u'mov1i659"', u'movi292', u'movil304'], dtype='object', name=u'movid"'),… 


Total: 80000rows 


对 输出 结果 进行 解释 : 其 中 最 前 端 格式 为 “usr+ 整 数 ”， 该 字符 串 代 表 用 户 编号 ，“[]” 内 的 字符 串 代 表 三 部 电影 的 编号 ，dtype 为 类 型 ，name 为 字段 各。 整体 代表 的 意思 是 ， 根 据 算法 得 出 对 用 户 
usr1 推 荐 他 并 未 看 过 的 三 部 电影 ， 编 号 为 : mov1290，mov1354，mov1678。 


10.3 放 全 


常用 智能 推荐 算法 主要 包括 基于 用 户 的 协同 过 滤 推 荐 ， 基 于 物品 的 协同 过 滤 推 荐 。 本 章 主 要 介绍 了 基于 用 户 的 协同 过 滤 算 法 ， 以 及 基于 物品 的 协同 过 滤 的 基本 概念 ， 并 结合 一 个 例子 演示 了 在 Python 中 
如 何 实现 协同 过 滤 算法 。 最 后 ， 对 算法 输出 的 结果 做 出 说 明 解 释 。 


10.4 上 机 实验 


1. 实 验 目 的 
" 加 深 对 智能 推荐 的 常用 算法 原理 的 理解 。 


-了解 知 能 推荐 的 一 种 常用 算法 在 Python 中 实现 。 


应 用 Python 实现 基于 物品 的 协同 过 滤 算 法 。 
利用 皮尔 名 相似 度 计 算 进行 物品 相似 度 计算 。 

` 基于 物品 协同 过 滤 算 法 预测 物品 评分 ， 然 后 得 出 推荐 结果 
3. 实 验 步骤 提示 
1) 输入 K ( 取 K 个 最 近邻 居 ) 。 
2) 计算 物品 之 间 的 相似 性 ， 获 得 物品 的 相似 性 矩阵 。 
3) 物品 相似 性 矩阵 排序 ， 获 得 排序 号 的 物品 的 相似 性 矩 阵 。 
4) 通过 K 个 最 近邻 ， 计 算 用 户 对 物品 兴趣 程度 矩阵 。 
5) 通过 物品 兴趣 程度 ， 推 荐 前 N 个 。 
4. 思 考 与 实验 总 结 


1) 基于 用 户 的 协同 过 滤 和 基于 物品 的 协同 过 滤 之 间 区 别 是 什么 


2) 两 者 的 优 缺 点 分 别 是 什么 ， 分 别 适 用 于 什么 场景 。 


第 11 草 ”时间 序列 分 析 


常用 的 时 间 序 列 模型 见 表 11-1， 本 章 以 ARIMA 模 型 为 例 介 绍 时 间 序 列 算法 在 Python 中 是 如 何 实现 的 。 


表 11-1 常用 时 间 序 列 模型 


模型 名 称 描述 
ARIMA 模型 可 以 实现 AR 模型 、MA 模型 、ARMA 模型 及 ARIMA 模型 
GARCH 模型 也 称 为 条 件 异 方差 模型 ， 适 用 于 金融 时 间 序 列 
时 间 序 列 分 角 时 间 序 列 的 变化 主要 受到 长 期 趋势 、 季 节 变 动 、 周 期 变动 和 不 规则 变动 这 四 个 因素 的 影响 。 
根据 序列 的 特点 ， 可 以 构建 加 法 模型 和 乘法 模型 
指数 平滑 法 可 以 实现 简单 指数 平滑 法 、Holt 双 参 数 线性 指数 平滑 法 和 Winters 线性 和 季节 性 指数 平滑 法 


11.1 ARIMA 模 型 


下 面 应 用 Python 语 言 建 模 步 骤 ， 对 表 11-2 中 2013 年 1 月 到 2016 年 1 月 某 和 餐厅 的 营业 数据 进行 建 模 。 


表 11-2 茶 餐 厅 的 销量 数据 


日 期 销量 
2015/1/1 3023 20137113 3 0506 2015/1/5 3 188 2015/1/7 220 
2015/1/2 3 039 2015/1/4 3 138 2015/1/6 3 224 2015/1/8 3 029 


( 续 ) 


ar 


* 数 据 详 见 : 示例 程序 /data/atima_data.csv 
1. 时 间 序 列 对 象 


加 载 基础 库 : pandas，numpy，scipy，matplotlip，statsmodels 对 其 调用 如 下 : 


import pandas as pd 


2. 获 取 数 据 
从 xls 文 件 中 读 取 数据 ， 代 码 见 代 码 清单 11-1: 
代码 清单 11-1 ”获取 数据 


# 参数 初始 化 
discfile = 'http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/15933/0EBPS/Text/../data/arima data.xls' 
# 读 取 数据 ， 指 定 日 期 列 为 指标 ，Pandas 自 动 将 "日 期 " 列 识别 为 Datetime 格 式 

data = pd.read excel (discfile,index col=0 

print (data.head ()) 
print('\n Data Types:') 
print (data.dtypes) 


3. 绘 制 时 间 序 列 图 


对 读 取 的 数据 绘制 时 间 序 列 图 ， 观 察 图 形 的 特征 ， 代 码 见 代码 清单 11-2， 所 得 图 形 见 图 11-1。 


代码 清单 11-2 ”绘制 时 间 序 列 图 


# 时 序 图 

import matplotlib.pyplot as pilt 

plt.rcParams['font.sans-serif'] = ['SimHei'] # 用 来 正常 显示 中 文 标 签 
lt.rcParams['axes.unicode minus'] = False # 用 来 正常 显示 负 号 

ta.plot () 

lt.show() 


[oD 


了 
qd 
Pp 


4. 自 相关 
对 时 间 序 列 做 自 相关 图 ( 见 图 11-2) ， 判 断 序 列 是 否 自 相关 ， 代 码 见 代码 清单 11-3: 


代码 清单 11-3” 自 相关 图 


# 自 相关 图 
from statsmodels.graphics.tsaplots import plot acf 
plot acf (data) .Show () 
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图 11-1 ”时 间 序 列 图 
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图 11-2” 自 相关 图 


由 自 相关 图 可 以 看 出 ， 在 4 阶 后 才 落 入 区 间 内 ， 并 且 自 相关 系数 长 期 大 于 零 ， 显 示 出 很 强 的 自 相关 性 。 
5 平稳 性 检验 
还 需要 对 时 间 序 列 做 平稳 性 检验 ， 代 码 见 代码 清单 11-4: 


代码 清单 11-4 平稳 性 检验 


# 平 稳 性 检测 

from statsmodels.tsa.stattools import adfuller as ADF 

print (u' 原 始 序 列 的 ADF 检 验 结果 为 : '，ADF (data[u' 销 量 '])) 

# 返 回 值 依次 为 adf、pvalue、usedlag、nobs、critical values、icbest、regresults、resstore 
#result: 原 始 序 列 的 ADF 检 验 结果 为 : (1.8137710150945272，0.99837594215142644，10L， 

26L, {'5%': -2.9812468047337282， '1%': -3.7112123008648155, '10%': -2.6300945562130176}, 
299.46989866024177) 


从 返回 的 结果 可 以 看 出 检验 结果 的 pvalue 即 p 值 显著 大 于 0.05， 判 断 该 序列 为 非 平 稳 序 列 。 
6. 时 间 序 列 的 差分 d 


ARIMA 模 型 对 时 间 序 列 的 要 求 是 平稳 型 。 因 此 ， 当 你 得 到 一 个 非 平稳 的 时 间 序 列 时 ， 首 先 要 做 的 是 时 间 序 列 的 差分 ， 直 到 得 到 一 个 平稳 时 间 序 列 。 如 果 你 对 时 间 序 列 做 d 次 差分 才能 得 到 一 个 平稳 序 


列 ， 那 么 可 以 使 用 ARIMA (p，d，q) 模型 ， 其 中 d 是 差分 次 数 。 


一 


首先 对 时 间 序 列 做 差分 ， 并 观察 差分 后 的 时 序 图 ， 见 图 11-3， 代 码 如 代码 清单 11-5 : 


代码 清单 11-5 ”做 差分 并 绘制 时 序 


D data = data.diff () .dropna () 
D data.columns = [u' 销 量 差分 '] 
D data.plot () # 时 序 图 
plt.show () 
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对 差分 后 的 序列 做 自 相关 检验 ， 见 图 11-4， 观 察 是 否 自 相 关 ， 代 码 如 代码 清单 11-6: 


代码 清单 11-6 ”对 序列 做 自 相关 检验 


plot acf(D data) .show() # 自 相关 图 


由 图 11-4 可 以 看 出 ， 差 分 后 的 序列 迅速 落 入 区 间 内 ， 并 呈现 出 向 0 靠拢 的 趋势 ， 序 列 没有 自 相关 性 。 
对 差分 后 的 序列 做 偏 自 相关 检验 ， 见 图 11-5， 观 察 是 否 偏 自 相关 ， 代 码 如 代码 清单 11-7: 


代码 清单 11-7 ”对 序列 做 偏 自 相 关 检 验 


from statsmodels.graphics.tsaplots import plot pacf 
plot pacf (D data) .show () # 偏 自 相关 图 
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图 11-5 ”差分 后 的 偏 自 相 关 图 


由 偏 自 相关 图 可 以 看 出 ， 差 分 后 的 序列 也 没有 显示 出 偏 自 相关 性 。 
再 对 差分 后 的 序列 做 平稳 性 检测 ， 代 码 见 代 码 清单 11-8: 


代码 清单 11-8 平稳 性 检测 


# 平 稳 性 检测 

print (u' 差 分 序列 的 ADF 检 验 结果 为 :' 
#result: 差 分 序列 的 ADF 检 验 结果 为 : 
35L, {'5%': -2.9485102040816327， 


ADF (D data[u' 销 量 差分 '])) 
-3.1560562366723537，0.022673435440048798，0L， 
'1%': -3.6327426647230316, '10%': -2.6130173469387756}，287.59090907803341) 


wi 


从 返回 的 ADF 检 验 结果 得 到 ，p 值 为 0.022673435440048798， 小 于 0.05。 
还 需要 对 差分 后 的 序列 做 白 噪声 检验 ， 见 代码 清单 11-9: 


代码 清单 11-9 ”和 白 噪 声 检验 


# 白 骂 声 检验 

from statsmodels.stats.diagnostic import acorr 1jungbox 

print (u' 差 分 序列 的 白 噪 声 检验 结果 为 : '，acorr ljungbox(D data, lags=1)) 

# 返 回 统计 量 和 Pp 值 

#result: 差 分 序列 的 白 吧 声 检 验 结 果 为 : (array([ 11.30402222]),， array([ 0.00077339])) 


从 得 到 的 白 噪声 检验 结果 可 以 看 出 ， 检 验 的 p 值 为 0.00077339， 小 于 0.05， 通 过 白 噪 声 检 验 ， 序 列 为 白 噪声 序列 。 
接 下 来 我 们 比较 下 一 阶 差分 后 的 序列 和 二 阶 差分 后 的 序列 ， 一 阶 差 分 序列 的 代码 见 代 码 清单 11-10: 


代码 清单 11-10 ”一 阶 差分 序列 


# 一 阶 差分 

fig = plt.figure (figsize=(12,8)) 
axl= fig.add subplot (111) 

diffl = data.diff (1) 

diff1l1 .plot (ax=ax1) 
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图 11-6 ”一 阶 差分 后 的 序列 图 


一 阶 差分 的 时 间 序 列 的 均值 和 方差 已 经 基本 平稳 ， 不 过 我 们 还 是 可 以 比较 一 下 二 阶 差 分 的 效果 ， 二 阶 差 分 的 代码 见 代 码 清单 11-11: 


代码 清单 11-11 二 阶 差分 序列 


# 三 阶 差分 
fig = plt.figure (figsize=(12,8)) 
ax2= fig.add subplot (111) 


diff2 = dta.diff (2) 
diff2.plot (ax=ax2) 
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图 11-7 二 阶 差分 后 的 时 序 图 


可 以 看 出 二 阶 差分 后 的 时 间 序 列 与 一 阶 差分 相差 不 大 ， 并 且 二 者 随 着 时 间 推 移 ， 时 间 序列 的 均值 和 方差 保持 不 变 。 因 此 可 以 将 差分 次 数 d 设 置 为 1。 


现在 我 们 已 经 得 到 一 个 平稳 的 时 间 序 列 ， 接 下 来 就 是 选择 合适 的 ARIMA 模 型 ， 即 ARIMA 模 型 中 合适 的 p，q。 
第 一 步 我 们 要 先 检查 平稳 时 间 序 列 的 自 相关 图 和 偏 自 相关 图 ， 代 码 见 代码 清单 11-12。 


代码 清单 11-12 ”模型 定 阶 


02 
Feb 


# 合适 的 p,q 

dta = data.diff (1) [1:] 

fig = plt.figure (figsize=(12,8)) 

axl=fig.add subplot (211) 

figl = sm.graphics.tsa.plot acf (dta[lu' 和 销量 '], 1ags=10,ax=ax1) 
ax2 = fig.add subplot (212) 
fig2 = sm.graphics.tsa.plot pacf (dtalu' 销 量 '] ,1ags=10,ax=ax2) 


其 中 lags 表 示 清 后 的 阶 数 ， 以 上 分 别 得 到 acf 图 和 pacf 图 ， 见 图 11-8: 
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图 11-8 自 相 关 和 偏 自 相 关 图 


1) 自 相 关 图 显示 沾 后 有 两 个 阶 超出 了 置信 边界 。 

2) 偏 相关 图 显示 在 滞后 1 阶 时 的 偏 自 相 关系 数 超出 了 置信 边界 ， 从 lag 1 之 后 偏 自 相关 系数 值 缩小 至 0。 

则 有 以 下 模型 可 以 供 选 择 : 

1) ARMA (0，2) 模型 : 即 自 相关 图 在 滞后 2 阶 之 后 缩小 为 0， 且 偏 自 相 关 缩 小 至 0， 则 是 一 个 阶 数 q= 2 的 移动 平均 模型 。 
2) ARMA (1，0) 模型 : 即 偏 自 相 关 图 在 滞后 1 阶 之 后 缩小 为 0， 且 自 相关 缩小 至 0， 则 是 一 个 阶 数 p= 1 的 自 回归 模型 。 
3) ARMA (0，1) 模型 : 即 自 相关 图 在 滞后 1 阶 之 后 缩小 为 0， 且 偏 自 相关 缩小 至 0， 则 是 一 个 阶 数 q= 1 的 自 回归 模型 。 


现在 有 以 上 这 么 多 可 供 选 择 的 模型 ， 我 们 通常 采用 ARMA 模 型 的 AIC 法 则 。 我 们 知道 : 增加 自由 参数 的 数目 提高 了 拟 合 的 优良 性 ，AlIC 鼓 励 数据 拟 合 的 优良 性 ， 但 是 应 尽量 避免 出 现 过 度 拟 合 
(Overfitting) 的 情况 。 所 以 优先 考虑 的 模型 应 是 AIC 值 最 小 的 那 一 个 。 赤 池 信息 准则 的 方法 是 寻找 可 以 最 好 地 解释 数据 但 包含 最 少 自 由 参数 的 模型 。 不 仅仅 包括 AIC 准 则 ， 目 前 选择 模型 常用 如 下 准则 : 


1) AIC=-2 In (L) +2 k 中 文 名 字 : 赤 池 信息 量 Akaike Information Criterion 
2) BIC=-2 In (L) +In (n) *k 中 文 名 字 : 贝 叶 斯 信息 量 Bayesian Information Criterion 
3) HQ=-2 In (L) +In (In (n) ) *k Hannan-Quinn Criterion 


构造 这 些 统计 量 所 遵循 的 统计 思想 是 一 致 的 ， 就 是 在 考虑 拟 合 残 差 的 同时 ， 依 自 变量 个 数 施 加 “和 您 罚 ”。 但 要 注意 的 是 ， 这 些 准 则 不 能 说 明 某 一 个 模型 的 精确 度 ， 也 就 是 说 ， 对 于 三 个 模型 A、B、C， 


我 们 能 够 判断 出 C 模 型 是 最 好 的 ， 但 不 能 保证 C 模 型 能 够 很 好 地 刻画 数据 ， 因 为 有 可 能 三 个 模型 都 是 糟糕 的 。 


对 三 个 模型 分 别 做 AIC、BIC、HQ 统 计量 检验 ， 代 码 见 代 码 清单 11-13。 


代码 清单 11-13 AIC、BIC、HQ、 统 计量 检验 


井 模型 
arma mod20 = sm.tsa.ARMA (dta, (2,0)).f£it() 
print (arma mod20.aic,arma mod20.bic,arma 
arma mod01 = sm.tsa.ARMA (dta, (0,1)) .fit( 
a 
( 


mod20 .hqgic) 


print (arma mod01.aic,arma mod01 .bic,arm 
arma mod10 = sm.tsa.ARMA (dta, (1,0)).£it 
print (arma mod10.aic,arma mod10.bic,arma mod10 .hqgic) 
#result: 
print (arma mod20.aic,arma mod20.bic,arma mod20.hqgic) 
20.440748036 426.77482379 422.651510127 

print (arma mod01.aic,arma mod01.bic,arma mod01 .hqgic) 
417.759525387 422.510082203 419.417596956 
print (arma modl0.aic,arma mod10.bic,arma mod10.hqgic) 
418.877719334 423.628276149 420.535790902 


mod01 .hqgic) 


对 比 3 个 模型 ， 可 以 看 到 ARMA (0，1) 的 aic、bic、hdqic 均 最 小 ， 因 此 是 最 佳 模型 。 
8. 模 型 检验 
对 于 选择 的 模型 ， 观 察 ARIMA 模 型 的 残 差 是 否 是 平均 值 为 0 目 方 差 为 常数 (服从 零 均值 、 方 差 不 变 的 正 态 分 布 ) ， 同 时 也 要 观察 连续 残 差 是 否 ( 自 ) 相关 。 


首先 使 用 QQ 图 ， 它 用 于 直观 验证 一 组 数据 是 否 来 自 某 个 分 布 ， 或 者 验证 某 两 组 数据 是 否 来 自 同一 ( 族 ) 分 布 。 在 教学 和 软件 中 常用 的 是 检验 数据 是 否 来 自 于 正 态 分 布 ， 代 码 见 代码 清单 11-14， 其 效果 
图 如 图 11-9 所 示 。 


代码 清单 11-14” 残 差 QQ 图 


# 残 差 QQ 图 

resid = arma mod01.resid 

Fig = plt.figure (figsize=(12,8)) 
ax = fig.add subplot (111) 


fig = qqplot (resid, line='g', ax=ax, fit=True) 
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图 11-9 ” 残 差 QQ 图 
我 们 对 ARMA (0，1) 模型 所 产生 的 残 差 做 自 相关 图 ， 代 码 见 代码 清单 11-15， 其 效果 图 如 图 11-10 所 示 。 


代码 清单 11-15 ” 残 差 自 相关 检验 


# 残 差 自 相关 检验 

fig = plt.figure (figsize=(12,8)) 

axl fig.add subplot (211) 

fig sm.graphics.tsa.plot acf (arma mod01.resid.values.squeeze(), lags=10, ax=axl) 
ax2 = fig.add subplot (212) 加 
| sm.graphics.tsa.plot pacf (arma mod01.resid, lags=10, ax=ax2) 
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图 11-10 残 差 自 相关 检验 效果 图 


还 需要 对 残 差 做 D-W 检 验 。 

德 宾 - 沃 森 (Durbin-Watson) 检验 ， 简 称 D-W 检 验 ， 是 目前 检验 自 相关 性 最 常用 的 方法 ， 但 它 只 适用 于 检验 一 阶 自 相关 性 。 因 为 自 相关 系数 p 的 值 介 于 -1 和 1 之 间 ， 所 以 0<DWx<4。 并 且 
DW=0= >p=1 即 存在 正 自 相 关 性 

DW=4< = >p=-1 即 存在 负 自 相关 性 

DW=2< = >p=0 即 不 存在 (一 阶 ) 自 相关 性 


因此 ， 当 DW 值 显著 的 接近 于 0 或 4 时 ， 则 存在 自 相关 性 ， 而 接近 于 2 时 ， 则 不 存在 (一 阶 ) 自 相关 性 。 这 样 只 要 知道 DW 统计 量 的 概率 分 布 ， 在 给 定 的 显著 水 平 下 ， 根 据 临界 值 的 位 置 就 可 以 对 原 假设 进 
行 检 验 。 代 码 见 代码 清单 11-16。 


代码 清单 11-16 D-W 检 验 


#D-W 检 验 
print (sm.stats.durbin watson (arma mod01.resid.values)) 
#result:1.95414900233 


检验 结果 是 1.95414900233， 说 明 不 存在 自 相关 性 。 


最 后 还 需要 对 残 差 做 Ljung-Box 检 验 。 


Uung-Box 检 验 是 对 随机 性 的 检验 ， 或 者 说 是 对 时 间 序 列 是 否 存在 滞后 相关 的 一 种 统计 检验 。 对 于 滞后 相关 的 检验 ， 我 们 常常 采用 的 方法 还 包括 计算 ACF 和 PCAF 并 观察 其 图 像 ， 但 是 无 论 是 ACF 还 是 
PACF 都 仅仅 考虑 是 否 存 在 某 一 特定 滞后 阶 数 的 相关 。LB 检 验 则 是 基于 一 系列 清 后 阶 数 ， 判 断 序列 总 体 的 相关 性 或 者 随机 性 是 否 人 存在 。 


时 间 序 列 中 一 个 最 基本 的 模型 就 是 高 斯 白 噪 声 序 列 。 而 对 于 ARIMA 模 型 ， 其 残 差 被 假定 为 高 斯 白 噪 声 序 列 ， 所 以 当 我 们 用 ARIMA 模 型 去 拟 合 数据 时 ， 拟 合 后 我 们 要 对 残 差 的 估计 序列 进行 LB 检 验 ， 判 
断 其 是 否 是 高 斯 白 噪声 ， 如 果 不 是 ， 那 么 就 说 明 ARIMA 模 型 也 许 并 不 是 一 个 适合 样本 的 模型 。 


对 残 差 做 Ljung-Box 检 验 的 代码 见 代码 清单 11-17。 


代码 清单 11-17 ”Ljung-Box 检 验 


# IJung-Box 检 验 
import numpy as np 
r,dq,p = sm.tsa.acf (resid.values.squeeze(), qstat=True) 
datap = np.c [range(1,36), r[1l:], q, p] 
table = pd.DataFrame (datap, columns=['lag', "AC", "QO", "Prob (>0)"]) 
print (table.set index('lag')) 
#result: 
AC Q Prob (>O) 
lag 
1 ,0 0.009994 0.003904 0.950179 
2i0 0.151097 0.922489 0.630498 


350 0.119392 1.513404 0.679180 
4.0 -0.212564 3.445002 0.486290 
Ss0 0.034075 3.496239 0.623957 
os0 =0053349 3,.626U021] 0O.727135 
10 =0.157088 4.790085 0.685562 
8.0 0.082868 5.125590 0.744072 
90 0.180436 6.71715153 0.660316 
10.0 -0.119683 7.528822 0.674754 
11.0 0.051306 7.672864 0.74227 

12;:0 -0.062678 7.896792 0.793143 
13:0 -V020659 7.922177 .0.848633 
14.0 -0.078650 8.306822 0,872737 
15.0 -0.024755 8.346742 0.909130 
16.0 0.001821 8.346969 0.9378359 
17.0 0.081164 8.821276 0.945702 
18.0 0.181184 11.316173 0.88046 

19.0 =0.036607 424010 0.90875 

20.0 0.049095 11.630091] 0.928220 
21:0 YQ.0935998 12.47103536 0.926033 
22.0 -0.186408 15.865930 0.822484 
23.0 -0.066136 16.326203 0.840953 
24.0 -0.160985 19.280651 0.736861 
25.0. .50:218461L,. 253.215923 ‘0:450326 
26.0 0.054818 25.627015 0.483747 
21.0 -0.06722 26.313862 0.501239 
28.0 -0.073881 27.247238 0.504816 
29.0 0.025513 27.374445 0.55151] 
30.0 -0.068816 28.454178 0.546382 
31.0 -0.001377 28.454697 0.597610 
32.0 0.008883 28.481683 0.645347 
33.0 =0.015105 28.3583729 0.686711 
34.0 -0.001370 28.587014 0.730003 
35.0 -0.001850 28.591694 0.769544 


检验 的 结果 就 是 看 最 后 一 列 前 十 二 行 的 检验 概率 (一般 观察 滞后 1~12 阶 ) ， 如 果 检 验 概率 小 于 给 定 的 显著 性 水 平 ， 比 如 0.05、0.10 等 就 拒绝 原 假设 ， 其 原 假设 是 相关 系数 为 零 。 就 结果 来 看 ， 如 果 取 显 
著 性 水 平 为 0.05， 那 么 相关 系数 与 零 没 有 显著 差异 ， 即 为 白 噪声 序列 。 


9. 模 型 预测 
模型 确定 之 后 ， 就 可 以 开始 进行 预测 了 ， 我 们 对 未 来 9 日 的 数据 进行 预测 ， 代 码 见 代码 清单 11-18。 


代码 清单 11-18 ”模型 预测 


# 预 测 
predict sunspots = arma mod01.predict('2015-2-07', '2015-2-15', dynamic=True) 
fig, ax = plt.subplots (figsize=(12, 8)) 
print (predict sunspots) 
predict sunspots[0] += data['2015-02-06':][u' 销 量 '] 
data=pd.DataFrame (data) 
for i in range(len(predict sunspots)-1): 

predict sunspots[i+1]=predict sunspots[i]+predict sunspots[i+1] 
print (predict sunspots) 
ax = data.ix['2015':] .plot (ax=ax) 
predict sunspots.plot (ax=ax) 
plt.show () 


* 代 码 详 见 : 示例 程序 /code/11-1.py 


所 得 的 时 序 图 如 图 11-11 所 示 。 
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图 11-11 模型 预测 的 时 序 图 


11.2 小 结 


本 章 重 点 介绍 了 时 间 序 列 建 模 在 Python 语 言 中 的 实现 过 程 。 通 过 对 本 章 的 学 习 ， 应 该 掌握 时 间 序 列 的 在 Python 中 实现 的 步骤 以 及 每 一 步骤 如 何 通 过 Python 软 件 实现 ， 从 而 实现 应 用 时 间 序 列 模型 预测 
时 间 序 列 将 来 的 走势 。 


11.3 ”上 机 实验 


1. 实 验 目的 


` 掌握 时 间 序 列 常用 算法 的 建 模 及 预测 过 程 。 


(1) 时 间 序 列 平稳 性 检验 

: 绘制 时 间 序 列 图 、 自 相关 检验 、 偏 自 相关 检验 、 单 位 根 检验 、 和 白 品 声 检验 。 
(2) 时 间 序 列 建 模 分 析 

. 非 平稳 时 间 序 列 处 理 、 模 型 识别 定 阶 、 残 差 白 噪声 检验 。 

(3) 时 间 序 列 模型 预测 

.时间 序列 模型 预测 及 绘制 时 间 序 列 发 展 趋势 图 

3. 实 验方 法 与 步骤 

实验 一 

根据 餐厅 营业 额 数据 ， 使 用 ARIMA 模 型 进行 建 模 预 测 半年 后 餐厅 的 营业 额 。 
1) 读 取 和 餐厅 营业 额 数据 。 


2) 将 餐厅 营业 额 数据 转换 为 时 间 序 列 对 象 。 


3) 对 时 间 序 列 对 象 进行 平稳 性 检验 ， 绘 制 时 间 序 列 图 、 自 相关 检验 、 偏 自 相 关 检验 、 单 位 根 检验 、 白 噪声 检验 等 。 
4) 时 间 序列 建 模 分 析 。 如 果 时 间 序 列 是 平稳 序列 ， 则 可 以 直接 进行 ARIMA 模 型 定 阶 ， 进 而 对 所 得 模型 做 残 差 的 白 噪声 检验 。 如 果 是 非 平 稳 序列 ， 则 需要 先进 行 差分 处 理 。 
5) 根据 时 间 序 列 模型 预测 半年 后 餐厅 的 营业 额 并 绘制 时 间 序 列 发 展 趋势 图 。 

实验 二 

根据 餐厅 营业 额 数据 ， 使 用 HoltWinters 法 建 模 并 预测 半年 后 餐厅 的 营业 额 。 

1) 读 取 餐 厅 营 业 额 数据 。 

2) 将 餐厅 营业 额 数据 转换 为 时 间 序 列 对 象 。 

3) 对 时 间 序 列 对 象 进行 分 解 ， 画 出 时 间 序 列 的 原始 值 、 趋 势 部 分 、 季 节 变 动 部 分 、 随 机 部 分 的 图 形 。 

4) 分 析 时 间 序 列 对 象 分 解 图 ， 确 定 使 用 指数 平滑 法 的 模型 。 

5) 对 时 间 序列 对 象 使 用 HoltWinters 进 行 建 模 分 析 ， 对 所 得 模型 做 残 差 的 白 噪声 检验 。 

6) 根据 时 间 序 列 模型 预测 半年 后 餐厅 的 营业 额 并 绘制 时 间 序 列 发 展 趋势 图 。 

4 思考 与 实验 总 结 


对 一 个 新 的 时 间 序 列 ， 如 何 进行 序列 的 平稳 性 检验 、 建 模 分 析 以 及 模型 预测 。 
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